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wickeln. Ganz genauso verhält es sich mit statistischen Tests. Es erleichtert 
die Anwendung solcher Tests, mit möglichst vielen schon gearbeitet zu ha- 
ben, aber für das Verständnis eines bestimmten Tests oder die Auswahl ei- 
nes Tests unter gegebenen Voraussetzungen ist das nicht zwingend erfor- 
derlich. Jedenfalls der Rezipient empirischer Forschung benötigt also kein 
tiefergehendes Wissen als das Bewusstsein, dass Tests und Testgrößen auf- 
grund praktischer Erfordernisse entwickelt und anhand ihrer empirischen 
Bewährung'° nach den Umständen des Einzelfalls ausgewählt werden. 

Indem wir der Wahrscheinlichkeitsverteilung einer Testgröße entneh- 
men, mit welcher relativen Häufigkeit ein bestimmter Wert dieser Testgrö- 
Be aus Zufallsprozessen entsteht, erfahren wir, wie oft die Parameter, aus 
denen wir die Testgröße errechnet haben, rein zufällig zustande kommen. 
Für diese Wahrscheinlichkeit definieren wir einen Schwellenwert, das sog. 
Signifikanzniveau (üblicherweise 5 %),'°’ und entscheiden wie folgt: Wenn 
in einem reinen Zufallsprozess, also bei unterstellter Wahrheit der Nullhy- 
pothese, in mindestens fünf von 100 Fällen die Daten zu beobachten gewe- 
sen wären, die wir beobachtet haben (oder extremere), weisen wir die Al- 
ternativhypothese zurück, da wir nicht ausschließen können, dass die Da- 
ten auch dann zustande kämen — durch die natürliche Streuung der Mess- 
werte — wenn diese Hypothese nicht zutrifft. Andernfalls ist das Ergebnis 
signifikant und wir weisen die Nullhypothese zurück. 

Wohlgemerkt bedeutet ein insignifikantes Ergebnis nicht, dass die zu- 
rückgewiesene Alternativhypothese falsch ist.'** Ein insignifikantes Ergeb- 
nis bedeutet nur, dass uns die Stichprobenwerte nicht hinreichend überra- 
schen, um den Glauben an die Nullhypothese aufzugeben (Falsifikation). 
Anders ausgedrückt: Aus der Stichprobe ist nicht mit hinreichender Sicher- 
heit festzustellen, in welcher der verglichenen Grundgesamtheiten der Ver- 


15° Vickers, Understand Statistics 2010, 140 kennzeichnet Statistik deshalb gar als experi- 
mentelle Wissenschaft. 

57 Beachte aber Gorard, Brit J Sociol Edu 2006, 67, 70: “Standard limits [...], such as 
5%, have no mathematical or empirical relevance. They are arbitrary thresholds for decision- 
making.” 

'8 Prägnant Aiken, Edu Psy Meas 1994, 848, 856: “Absence of evidence is not evidence 
of absence.” 


A. Die Phasen quantitativ-empirischer Forschung 87 


gleichswert größer ausfällt.'”” Das kann daran liegen, dass beide gleich 
groß sind (der Effekt also exakt null ist), aber ebensogut kann es an der zu 
kleinen Stichprobe oder zu großen Datenstreuung liegen. Es bleibt also da- 
bei: Ob oder wie wahrscheinlich die Alternativhypothese stimmt, wissen 
wir nicht, denn allen Berechnungen der frequentistischen Statistik liegt die 
Annahme zugrunde, dass die Nullhypothese wahr (die Alternativhypothese 
also falsch) ist. Das ist der Preis, den frequentistisch arbeitende Forscher 
dafür zahlen, miteinander überhaupt über Fehlerwahrscheinlichkeiten re- 
den zu können. Es ist ein hoher Preis, denn das Signifikanztesten ist zwar 
„heute Standard quer durch alle Wissenschaften“, aber auch „eine konstan- 
te Quelle von Irrtümern und Konfusion“, weil oft verkannt wird, dass „eine 
signifikante Statistik für sich allein genommen überhaupt nichts“ darüber 
aussagt, ob die „Ausgangshypothese falsch ist oder nicht, ob sie eklatant 
verletzt ist oder nur ein wenig oder ob die Abweichung von der Ausgangs- 


hypothese in irgendeiner Weise praktisch von Bedeutung ist“.'° 


3. Erkundende (explorative) Statistik 


Eine dritte Art statistischer Auswertung ist die erkundende Statistik. Dabei 
handelt es sich nicht um ein weiteres Methodenarsenal der Statistik, son- 
dern um die Bezeichnung für einen bestimmten Einsatz der bereits darge- 
stellten statistischen Methoden. Erkundende Statistik ist nicht mehr und 
nicht weniger als schließende Statistik ohne vorgängige Hypothese. '!°' Die- 
se Verwendung von Statistik ermöglicht es zwar, Regelmäßigkeiten in den 
Daten zu erkennen, erlaubt aber mangels vorgängiger Hypothese keine sto- 
chastisch zulässigen Aussagen über den Wahrscheinlichkeitsgrad der beob- 
achteten Regelmäßigkeiten. Deshalb haben die Ergebnisse einer erkunden- 
den Statistik ganz genau denselben Erkenntniswert wie weniger formali- 
sierte anekdotische Evidenz (dazu oben I.1.): Sie sind wertvoll dabei, über- 
prüfbare empirische Hypothesen zu bilden,'° ermöglichen aber selbst kei- 
ne systematische empirische Erkenntnis. 


' Abelson, Principled Argument 1995, 10 Fn. 4 m.w.N. 

160 Krämer, Denkste! 2011, 189; nach Dubben/Beck-Bornholdt, KZfSS Sonderheft 2004, 
61, 63 ist das der „häufigste und folgenreichste Irrtum der modernen internationalen medizi- 
nischen Forschung‘; relativierend dagegen Nickerson, Psy Meth 2000, 241, 289: “Claims to 
the contrary notwithstanding, there is room for doubt as to whether [acquisition of knowl- 
edge] has been greatly impeded by the prevalence of such beliefs or by any ofthe many other 
shortcomings of NHST that have been ably identified by its critics.” 

'6! Vgl. Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 137. 

12 Shadish/Cook/Campbell, Causal Inference 2002, 31: “exploratory experiments that 
were unguided by formal theory and unexpected experimental discoveries [...] have repeated- 
ly been the source of great scientific advances.”; vgl. auch Epstein/King, U Chi L Rev 2002, 
1, 64; Croson, U Ill L Rev 2002, 921, 942. 
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Es gehört zu den großen Schwächen der empirischen Sozialforschung, 
dass sich fast nie abschätzen lässt, zu welchem Zeitpunkt eine bestimmte 
Hypothese gebildet wurde.'® Oft ergeben sich während der Datenauswer- 
tung interessante Muster, deren anekdotische Natur nicht erkannt oder 
nicht respektiert wird. Stattdessen werden dann post hoc neue Hypothesen 
formuliert, die nicht etwa in einer zweiten Studie überprüft werden, son- 
dern noch anhand derselben Daten, die ihre Formulierung inspiriert haben 
— ein eindeutiger Zirkelschluss. Dieses Vorgehen ist selten nachweisbar, 
führt aber zu einem scheinbar klaren „Ergebnis“, das sich wesentlich leich- 
ter veröffentlichen lässt als Nullergebnisse (dazu unten bei Fn. 172). 


V. Deutung 


„Gibt es noch etwas zu sagen, nachdem alle Ergebnisse dargestellt sind? 
Häufig sogar sehr viel!“'™ 

An die Auswertung der Daten schließt sich die Deutung der Ergebnisse 
an. Hier geht es darum, den Kreis zur Ausgangsfrage zu schließen, 
Schlussfolgerungen zu formulieren, Grenzen der Untersuchung zu erläu- 
tern, Verbesserungen und neue Fragen anzuregen. Den Ergebnissen muss 
hier Bedeutung entlockt werden.'® Das umfasst in der Anwendungsfor- 
schung ohnehin, aber oft sogar in der Grundlagenforschung, mögliche nor- 
mative Konsequenzen (policy implications). Der juristische Rezipient em- 
pirischer Forschung findet hier zwei mögliche Varianten: 

Entweder hat eine empirische Disziplin gar kein normatives Erkenntnis- 
interesse oder wenigstens kein kohärentes Wertungsgebäude (wie große 
Teile der Psychologie’), dann beschränken sich Studien meist ohnehin auf 
Anregungen, wie sich die neuen Erkenntnisse bewerten lassen könnten. Ju- 
ristische Rezipienten sind dann gefordert, ihrerseits eine normative Bewer- 
tung der Ergebnisse zu leisten und die neue Erkenntnis über das Sein (die 
Rechtswirklichkeit) auf den Stand der Erkenntnis über das Sollen (die 
Rechtsdogmatik) zu beziehen. 


16 Abelson, Principled Argument 1995, 58: “researchers are very inventive at concocting 
potential explanations of wrong-tailed results.” 

164 Beller, Forschen lernen 2008, 161. 

15 Ellis, Effect Sizes 2010, 108: “Extracting meaning from research results is a challenge 
that many researchers avoid.”; Vickers, Understand Statistics 2010, 100: “Many people seem 
to think that we statisticians spend most of our time doing calculations, but that is perhaps the 
least interesting thing we do. [...] Statistics is more than just cutting and pasting from one 
software package to another. We have to think about what the numbers mean and the implica- 
tions for our scientific question.” 

166 Vol. aber Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 18 zum „Verändern“ 
durch Korrektur, Förderung oder Prävention als einem Forschungziel der Psychologie. 
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Oder die empirische Disziplin hat eine kohärente normative Theorie 
(wie die soziologische Rollentheorie oder die ökonomische Wohlfahrts- 
theorie), in deren Rahmen sie beurteilt, wie die neue Erkenntnis bewertet 
werden sollte. Dann muss der juristische Rezipient überprüfen, inwieweit 
diese normative Folgerung mit juristischen Wertungskategorien vereinbar 
ist, und etwaige Abweichungen wertend begründen. '° In jedem Fall muss 
der juristische Rezipient die normative Ausdeutung der Ergebnisse als sein 
Hoheitsgebiet begreifen und nutzen; die empirische Forschung kann ihm 
nur Anregungen geben, aber keine Vorgaben machen. '!® 


VI. Veröffentlichung 


Sind die plangemäß erhobenen Daten ausgewertet und gedeutet, ist das 
empirische Forschungsprojekt noch nicht beendet. Im Gegenteil: Diejenige 
Phase, die oft am längsten dauert, hat noch nicht einmal begonnen. Den- 
noch widmen einschlägige Darstellungen des empirischen Forschungsab- 
laufs der Veröffentlichung kaum Aufmerksamkeit. Wenn sie überhaupt dar- 
auf eingehen, geben sie in der Regel Hinweise für die Struktur und den Stil 
von Manuskripten." Zumindest für den Rezipienten empirischer For- 
schung hingegen ist die Veröffentlichungsphase unter einem ganz anderen 
Gesichtspunkt von überragender Bedeutung: Sie ist das maßgebliche Na- 
delöhr der empirischen Forschung. 


1. Oualitätskontrollen 


In den meisten empirischen Disziplinen folgen Veröffentlichungen demsel- 
ben Grundprinzip. Das wichtigste Medium sind Zeitschriften. Anders als 
bei Juristen sind Monographien von untergeordneter Bedeutung und er- 
scheinen meist in Gestalt von Lehr- und Handbüchern oder als groß ange- 
legte Forschungssynthese. Reguläre akademische Veröffentlichungen dage- 
gen erfolgen fast ausschließlich in Zeitschriften. Das schließt auch Qualifi- 


167 Dazu ausf. Engel in: Engel u.a., Recht und Verhalten 2007, 363, 387 ff.; Garrn, Ratio- 
nalität 1986, 117: „der rechtlich Entscheidende“ müsse „berücksichtigen, von welchem Vor- 
verständnis sozialer Wirklichkeit die betreffende sozialempirische Untersuchung geleitet ist, 
und überlegen, ob dieses [...] zu überzeugen vermag.“ 

18 Engel in: Engel, Methodische Zugänge 1998, 11, 40; Schneider/Teitelbaum, Utah L 
Rev 2006, 53, 66: “lawyers may feel free — almost obliged — to integrate the empirical and the 
normative in a way many social scientists will not but somebody must.”; krit. Jetswaart in: 
Plett/Ziegert, Empirische Rechtsforschung 1984, 210, 213 zur “tendency to be afraid of see- 
ing the researcher place the data clearly in a theoretical framework. [.] policy-makers [.] want 
to reserve the right to draw conclusions.” 

1 Etwa Beller, Forschen lernen 2008, 153 ff. (Kap. 7); Bortz/Déring, Forschungsmetho- 
den 2006, 86 ff.; fundiert und ausf. auch Epstein/Martin/Schneider, Vand L Rev 2006, 1811 
und Epstein/Martin/Boyd, Vand L Rev 2007, 801. 
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kationsarbeiten ein, z.B. kumulative Dissertationen und die anhaltende 
Veröffentlichungstätigkeit, die anstelle der bei Juristen üblichen Habilitati- 
on den Zugang zur akademischen Laufbahn eröffnet. Aufgrund dieser 
überragenden Rolle von Zeitschriftenveröffentlichungen haben empirische 
Disziplinen ein komplexes System der Qualitätskontrolle. 

Zum einen werden Zeitschriften danach bewertet, welchen Einfluss sie 
auf den Diskurs haben: Für jede Zeitschrift wird laufend errechnet, wie oft 
ihre Inhalte durchschnittlich zitiert werden (impact factor), und zwar an- 
hand verschiedener Errechnungsverfahren, die zahlreiche Korrekturfakto- 
ren berücksichtigen, um aussagekräftige Werte zu erhalten und Manipula- 
tionen zu erschweren. Je höher dieser Einfluss der Zeitschrift, desto be- 
gehrter und höher angesehen ist eine Veröffentlichung darin. So entstehen 
für jede Disziplin und ihre Subdisziplinen Rangordnungen (journal ran- 
kings), an deren Spitze meist die disziplinübergreifenden Zeitschriften 
Science und Nature rangieren.'”° 

Zum anderen praktizieren die meisten Zeitschriften die Kreuzbegutach- 
tung (peer review):'"' Eingereichte Texte werden zunächst von einem 
Schriftleiter mit wissenschaftlicher Qualifikation gesichtet. Was er nicht 
von vornherein ablehnt, leitet der Schriftleiter an mindestens zwei ausge- 
wählte Wissenschaftler mit einem Schwerpunkt im betreffenden Themen- 
gebiet weiter, die er (freiwillig und ehrenamtlich) um die Erstellung eines 
Gutachtens bittet. In der Regel werden die Manuskripte vorher anonymi- 
siert und die Gutachter um eine von drei Empfehlungen gebeten: Ableh- 
nung, Annahme oder Überarbeitung. Falls der Schriftleiter dieser Empfeh- 
lung folgt, kann der Autor im ersten Fall seinen Text bei einer anderen 
Zeitschrift einreichen (gleichzeitige Paralleleinreichungen sind meist un- 
tersagt), im zweiten Fall damit rechnen, dass sein Text zügig online er- 
scheint und innerhalb von einigen Monaten bis Jahren abgedruckt wird, 
und im dritten Fall seinen Text überarbeiten und erneut einreichen (revise 
and resubmit); damit beginnt das Verfahren von neuem, nur dass am Ende 
oft nur noch eine Annahme oder Ablehnung in Frage kommt. Aufgrund der 
Arbeitslast der Schriftleiter und Gutachter, die diese Funktion neben ihrer 
wissenschaftlichen Forschung ausüben, streckt sich das Verfahren nicht 
selten über mehrere Jahre. 


170 Eine auf dem einflussreichsten Zitatenindex (Thomson ISI Journal Citation Report) be- 
ruhende Übersicht von Rangordnungen findet sich unter www.sciencegateway.org/rank; die 
bislang einzige Rangordnung deutscher Rechtszeitschriften (umfrage-, nicht einflussbasiert) 
bieten Gröls/Gröls, JZ 2009, Beil. H. 17, 32. 

V! Engel, JITE 2010, 199, 200: “These days, the prime disciplinary governance tool is 
peer review.”; vgl. auch Epstein/King, U Chi L Rev 2002, 1, 48. 
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2. Strukturelle Engpässe 


Die Qualitätskontrollen im Veröffentlichungsverfahren haben einige erheb- 
liche Nachteile. Zunächst führt die Kreuzbegutachtung beinahe zwingend 
zu einer Verknappung der Veröffentlichungskanäle. Denn damit nicht der 
eigentliche Forschungsbetrieb zum Erliegen kommt, kann jeder Wissen- 
schaftler nur eine begrenzte Anzahl von Begutachtungsaufträgen überneh- 
men, was wiederum die Anzahl der kreuzbegutachteten Zeitschriften be- 
schränkt. Da Zeitschriften ohne Kreuzbegutachtung (oder etwa freie Onli- 
neveröffentlichungen) kein Ansehen genießen und kaum wahrgenommen 
werden, stehen Forscher also im permanenten Wettbewerb um die knappen 
Veröffentlichungsgelegenheiten. 

In diesem Wettbewerb ist zu beobachten, dass deutlich mehr Studien 
veröffentlicht werden, die einen vermuteten Effekt empirisch belegen als 
Studien, die einen Effekt vermuten, dafür aber keine signifikanten Ergeb- 
nisse finden („Nullergebnis“).'”” Wenn die Autoren empirischer Studien 
nicht gerade hellseherische Fähigkeiten haben,'” lässt diese Asymmetrie 
darauf schließen, dass Schriftleiter und Gutachter gezielt solche Texte zur 
Veröffentlichung auswählen, die signifikante Ergebnisse berichten, wäh- 
rend sie Nullergebnisse überwiegend ablehnen.'” Dieses Vorgehen wird — 
wenn tiberhaupt — damit zu rechtfertigen versucht, dass Nullergebnisse kei- 
ne neuen Erkenntnisse beinhalten,'” weil sie schlicht durch „lausige Studi- 
en“ verursacht worden sein könnten.!’° Begründungen dieser Art sind aller- 
dings derart fehlgeleitet, dass man sich wundern muss, sie sogar in Einfüh - 


'2 Vgl. etwa Leary, Methods 2008, 22: “scientific journals are reluctant, if not completely 
unwilling, to publish studies that fail to obtain effects.”; Abelson, Principled Argument 1995, 
54 f.; das wurde in den letzten fünfzig Jahren wiederholt kritisiert: Sterling, J Am Stat Assoc 
1959, 30; Sterling/Rosenbaum/Weinkam, Am Stat’n 1995, 108. 

13 So die polemische These von Bones, Persp Psy Sci 2012, 307. 

174 Nach einer Umfrage von Coursol/Wagner, Prof Psy Res Pract 1986, 136 (Tabelle 2) 
wurden 80 % der eingereichten Ergebnisse, aber nur 50 % der eingereichten Nullergebnisse 
veröffentlicht; fast identisch das Experiment von Atkinson/Furlong/Wampold, J Couns Psy 
1982, 189 (82 % der Ergebnisse, 43 % der Nullergebnisse); auch im früheren Experiment von 
Mahoney, Cog Therapy Res 1977, 161, 168 (Tabelle 1) bewerteten Gutachter Studien mit 
Nullergebnissen schlechter (1,8 auf einer Skala 1-6) als identische Studien mit Ergebnissen 
(3,2) oder ganz ohne Resultat (3,4). 

175 Sterling/Rosenbaum/Weinkam, Am Stat’n 1995, 108 zitieren einen Schriftleiter mit dem 
Urteil: “the study was well documented. Unfortunately, the negative results translates [sic] 
into a minimal contribution to the field.” 

176 So wörtlich Leary, Methods 2008, 22: “data may fail to support our research hypothe- 
ses for reasons that have nothing to do with the validity of a particular hypothesis. As a result, 
null findings are usually uninformative [...] Was the hypothesis disconfirmed, or did we 
simply design a lousy study? Because we can never know for certain, journals generally will 
not publish studies that fail to obtain effects.” 
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rungslehrbüchern zu lesen. Schließlich kann jedes Ergebnis — nicht nur 
Nullergebnisse — auf der schlechten Durchführung einer Studie beruhen. 
Die Gültigkeit einer Studie lässt sich nie an ihrem Ergebnis messen, son- 
dern immer nur an ihrer Durchführung.” Deshalb wird die Studiendurch- 
führung stets detailliert berichtet, ganz gleich ob am Ende ein Ergebnis 
oder Nullergebnis steht. Dass Nullergebnisse nicht veröffentlicht würden, 
weil sie auf einer schlechten Studiendurchführung beruhen könnten, ist 
demnach nur eine bequeme Scheinrechtfertigung.'’* Tatsächlich ist das Un- 
gleichgewicht der Veröffentlichungslandschaft kaum zu rechtfertigen, son- 
dern bestenfalls zu erklären: In der Realität gibt es weniger Zusammenhän- 
ge als Nichtzusammenhänge, deshalb finden Menschen erstere womöglich 
schlicht spannender als letztere.'”” Was immer die Ursache des Ungleichge- 
wichts, es hat zwei verheerende Folgen: 

Erstens werden Nullergebnisse oft gar nicht erst zur Veröffentlichung 
eingereicht." Aus der verzerrten Auswahl durch die Veröffentlichungsor- 
gane (publication bias) folgt also ein verzerrtes Veröffentlichungsbemühen 
durch die Autoren (reporting bias). Weil insignifikante Ergebnisse nicht 
eingereicht werden, sondern in der Schublade verschwinden (deshalb an- 
schaulich file drawer effect),'*' entsteht eine kaum quantifizierbare Dun- 
kelziffer an unveröffentlichten Studien, die trotz ähnlicher Ausgangsbedin- 
gungen wie ihre veröffentlichten Gegenstücke keinen Effekt finden. Wenn 
solche Ergebnisse der Forschungsgemeinschaft vorenthalten werden, wird 
die Bedeutung der veröffentlichten Effekte zwangsläufig überschätzt und 
die Forschung kann in ganz falsche Richtungen laufen: 


„Dieses Aussortieren von nicht ‚signifikanten‘ Studien durch Dritte lässt die Bedeutung 
der überlebenden Ergebnisse genauso unangemessen wachsen wie das Manipulieren der 
[...] Studien selbst.“!* 


” Vgl. auch Zeisel/Kaye, Figures 1997, 97: “A statistically significant fmding from a 
poorly designed study deserves no more credence than any other fmding from such a study.” 
78 Im Gegenteil: Gerade weil Studien mit Nullergebnis kaum je veröffentlicht werden, 
sind sie vertrauenswürdiger, weil niemand Nullergebnisse vorsätzlich fälschen oder durch ge- 
schickte Auswertung herbeirechnen wird. 
” Prägnant auf den Punkt gebracht von Goldacre, Guardian 2011: “Scientific journals 
can be as bad as newspapers in preferring eye-catching stories to negative findings.” 
8° Nach einer Umfrage von Coursol/Wagner, Prof Psy Res Pract 1986, 136 (Tabelle 1) 
werden Nullergebnisse halb so oft (43 % statt 82 %), nach der Umfrage von Greenwald, Psy 
Bull 1975, 1, 4 sogar acht Mal seltener (5,9 % statt 49,4 %) zur Veröffentlichung eingereicht 
— und stattdessen vier Mal so oft sofort aufgegeben (28 % statt 6,6 %); vgl. auch Abelson, 
Principled Argument 1995, 54 £.: “Students may abandon dissertations because null hypothe- 
ses cannot be rejected.” 

'8! Begriff nach Rosenthal, Psy Bull 1979, 638; vgl. auch Ellis, Effect Sizes 2010, 117 f. 

182 Krämer, Denkste! 2011, 192; anschauliche Anekdote bei Dubben/Beck-Bornholdt, 
Fehlinformation 2011, 100 m.w.N.:,,Diagoras von der Insel Milos [...] wurde vor 2500 Jahren 
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Im Extremfall lasst diese Entwicklung sogar erwarten, dass ,,die meisten 
publizierten Forschungsergebnisse falsch sind“.'** Als Abhilfe haben ein- 
zelne Disziplinen Zeitschriften gegründet, die ausschließlich Nullergebnis- 
se publizieren,'** aber sämtlich open-access-Projekte sind und damit längst 
nicht so angesehen und beachtet wie kommerziell verlegte Zeitschriften. '* 

Zweitens erhalten Autoren einen erheblichen Anreiz, Hypothesen entwe- 
der von vornherein möglichst unscharf zu formulieren oder im Nachhinein 
(post hoc) an die Beobachtungen anzupassen (HARKing).'*° Beides wider- 
spricht den oben dargestellten Grundlagen der schließenden Statistik und 
bedeutet bildlich gesprochen einen Zirkelschluss (vgl. oben IV.3. a.E.). In 
die Formeln der schließenden Statistik lassen sich zwar auch Ereignisse 
einsetzen, die bereits beobachtet wurden, aber alle so gewonnenen Wahr- 
scheinlichkeitsschlüsse sind unsinnig, denn beobachtete Ereignisse haben 
per Definition eine Wahrscheinlichkeit von 100 %.'*’ Wenn aber nicht klar 
ist, ob die statistischen Methoden und Hypothesen vorab festgelegt und da- 
mit aussagekraftig waren, oder ob sie nur erkundenden Wert haben, werden 
statistische Ergebnisse ganz generell entwertet.'** Das führt dazu, dass vie- 
le einmal belegte Effekte später nicht mehr repliziert werden können, so 
dass die Effekte scheinbar über die Zeit abnehmen (decline effect), wäh- 
rend sie in Wirklichkeit nie existierten.'*? Das zu verhindern könnten Da- 
tenbanken helfen, in denen Studien vorher detailliert registriert werden 


angesichts der Danktafeln [...], die gerettete Schiffbrüchige in einem Tempel aufgestellt hat- 
ten, von einem Priester gefragt, ob dies nicht ausreichende Evidenz für die Existenz der Göt- 
ter sei. Worauf Diagoras entgegnet haben soll: ‚Und wo sind die Tafeln der Ertrunkenen?‘““. 

183 So der provokative Titel von /oannidis, PLoS Med 2005, 696 (mit bayesianischer 
Begr.), dazu Diekmann, JBNST 2011, 628; ähnl. Dubben/Beck-Bornholdt, KZfSS Sonderheft 
2004, 61, 74: „Ein Großteil dessen, was in ‚wissenschaftlichen‘ Journalen gedruckt wird, ist 
nicht valide.“; ebenso De Long/Lang, J Polit Econ 1992, 1257 (modellanalytisch); krit. 
Nickerson, Psy Meth 2000, 241, 271. 

184 Bsp.: J of Articles in Support of the Null Hypothesis, J of Null Results, J of Negative 
Results Ecology & Evolutionary Biology, J of Pharmaceutical Negative Results oder J of Ne- 
gative Results in BioMedicine; fiir die Psychologie www.psychfiledrawer.org (dazu Carpen- 
ter, Sci 2012, 1558; Yong, SdW 2013, 2/58). 

185 Auch zwei der zuletzt meistdiskutierten psychologischen Replikationen (vgl. nur Yong, 
Nature 2012, 298; Yong, SdW 2013, 2/58) landeten in einer open-access-Zeitschrift 
(Doyen/Klein u.a., PLoS ONE 2012; Ritchie/Wiseman/French, PLoS ONE 2012), und erstere 
wurde prompt aufgrund dessen angegriffen (Bargh, Nothing in Their Heads 2012). 

# Kurz für Hypothesizing After the Results are Known, näher Kerr, Pers Soc Psy Rev 
1998, 196. 

#7 Vel. nur Duckworth, Teach Stat 2006, 84, 86. 

8 Begg/Berlin, J Royal Stat Soc A 1988, 419, 428: “This has the consequence, among 
many informed observers, of discrediting the value of the literature as a source of believable 
information and of the ability of conventional statistical methods to make reliable inferences.” 
® Schooler, Nature 2011, 437; Lehrer, New Yorker 2010. 
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miissen. Verbreitet sind solche Datenbanken bisher nur in der medizini- 
schen Forschung;'”° sie hindern Forscher zwar nicht daran, so oft zu expe- 
rimentieren, bis sie einen Effekt finden, machen die Zahl und Konfigurati - 
on der Versuche aber transparent. 


3. Mangel an Replikationen 


Neben der Bevorzugung signifikanter Ergebnisse führt der Veröffentli- 
chungsprozess auch noch auf anderen Wegen zu Verzerrungen der For- 
schungslandschaft. Etwa veröffentlichen gerade die angesehensten Zeit- 
schriften oft grundsätzlich keine Replikationsstudien und verweisen Auto- 
ren stattdessen auf eine von Hunderten weniger profilierter Zeitschriften. '”' 
Diese allerdings werden kaum wahrgenommen, so dass eine dort veröffent- 
lichte erfolglose Replikation die Ursprungsstudie nicht ernstlich in Zweifel 
ziehen kann.'” Zudem wird für erfolglose Replikationsversuche oft der 
Autor der Ausgangsstudie zum Gutachter bestellt. So wichtig die Gelegen- 
heit für jenen Autor ist, sich zur mangelnden Replizierbarkeit seiner Ergeb- 
nisse äußern zu können, so gefährlich ist es auch, ihn als Gutachter zur Un- 
terdrückung von Erkenntnissen zu ermächtigen, die seinen eigenen wider- 
sprechen und seinem Ansehen dadurch schaden könnten. Zumal hier regel- 
mäßig ein strukturelles Machtgefälle herrscht: Studien, die interessant ge- 
nug sind, um repliziert zu werden, befördern ihren Autor schnell in hohe 
Positionen. Autoren hingegen, die noch Studien replizieren statt eigene 
Forschungsrichtungen zu verfolgen, sind typischerweise oft in niedrigeren 
Positionen. Daher überrascht es nicht, dass viele Forscher Replikationen 
von vornherein vermeiden, um 


„es sich mit den Kolleginnen und Kollegen nicht [zu] verderben, die nicht selten äußerst 
empfindlich reagieren, wenn ihre ‚heißgeliebte‘ Hypothese, auf der gelegentlich auch 
noch gewaltige spekulative Gedankengebäude errichtet wurden, sich in einer Wiederho - 
lungsuntersuchung als äußerst mager erweist.“'” 


Erkenntnisse aus Replikationsstudien sind im Veröffentlichungsprozess 
also systematisch benachteiligt, und doch sind gerade diese Erkenntnisse 


' De Angelis/Drazen u.a., New Engl J Med 2004, 1250: “The I[nternational]C[ommittee 
of]M[edical]J[ournal]E[ditors] member journals will require, as a condition of consideration 
for publication, registration in a public trials registry.”; Evaluation z.B. bei Mathieu/Boutron 
u.a., J Am Med Assoc 2009, 977. 

1 Aldhous, NewScientist 2011; Crocker/Cooper, Sci 2011, 1182: “studies that replicate 
(or fail to replicate) others’ findings are almost impossible to publish in top [.] journals”. 

192 Bsp. bei Begg/Berlin, J Royal Stat Soc A 1988, 419, 428 mit dem Fazit: “a highly visi- 
ble publication can have a dramatic and prolonged impact on medical practice even if the re- 
sults are demonstrated to be unreliable.” 

'3 Diekmann, Sozialforschung 2012, 70. 
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besonders wichtig:'”* Die gesamte frequentistische Statistik beruht auf ei- 
nem Fehlerkalkül für den Fall, dass ein bestimmter Versuch beliebig oft 
wiederholt würde. Wenn solche Wiederholungen aber tatsächlich nie statt- 
finden oder nie berücksichtigt werden, verlieren Signifikanzaussagen ihre 
Glaubwürdigkeit.'” 

Nicht zuletzt deshalb ist es teilweise üblich, von Autoren für eine Veröf- 
fentlichung immer mindestens drei zusammenhängende Studien einzufor- 
dern, damit ein Mindestmaß an Replizierbarkeit des Haupteffekts sicherge- 
stellt ist.'”° Neuerdings rufen einzelne Zeitschriften sogar ganz ausdriick- 
lich zur Einsendung von Replikationen auf und stellen deren Veröffentli- 
chung konkret in Aussicht.” Bisher finden sich auch kaum Versuche, ver- 
öffentlichte Studien systematisch zu replizieren,'”* doch eine unlängst zu- 
sammengetretene Forschergruppe, die über eine offene Internetplattform 
kollaboriert, hat es sich sogar zum Ziel gesetzt, alle Studien zu replizieren, 
die im Jahr 2008 in drei der angesehensten psychologischen Zeitschriften 
erschienen sind.'” 


4. Subjektivität und Willkür 


Schließlich ist auch Allzumenschliches dem akademischen Veröffentli- 
chungsprozess nicht fremd. Schriftleiter können Texte für die Kreuzbegut- 
achtung kaum effektiv anonymisieren, weil Autoren, die an gleichen The- 
men forschen, einander meist ohnehin kennen. Zudem sind in einigen Dis- 
ziplinen Vorveröffentlichungen im Internet üblich (preprints), um Ideen- 


' Sehr illustrativ die Beiträge in Verschiedene, Psy’st 2012, 346 unter www.thepsycholo 
gist.org.uk/archive/archive_home.cfm?ArticlelD=2059; vgl. auch Zitat bei Nickerson, Psy 
Meth 2000, 241, 284 m.w.N.: “An ounce of replication is worth a ton of inferential statistics”. 

15 Diekmann, Sozialforschung 2012, 190: „Der Verzicht auf Replikationen kann [.] leicht 
zu einer Kumulation von Irrtümern führen.“; Salsburg, Statistics 2001, 99 m.w.N. gegen “iso- 
lated significant results which [the researcher] does not know how to reproduce”; vgl. auch 
Epstein/King, U Chi L Rev 2002, 1, 38 ff. mit juristischen Bsp. 

1% Abelson, Principled Argument 1995, 133: “it is a standard journal editorial policy to re- 
quire of authors that they report experiments in clusters of three or more interrelated studies, 
serving (among other things) to provide a modicum of replication.” 

1 Beispielhaft Alm, Publ Fin Rev 2010, 4 mit gleichlautendem Aufruf in den sechs fol- 
genden Ausgaben (zuletzt Burman/Reed/Alm, Publ Fin Rev 2011, 190) und rot hinterlegter (!) 
Verlinkung auf der Website http://pfr.sagepub.com; zu einem früheren Beispiel vgl. Fuess, Q 
J Bus Econ 1996, 3. 

18 Ausnahme etwa Dewald/Thursby/Anderson, Am Econ Rev 1986, 587, 600 mit dem Fa- 
zit: “Our results [...] suggest that [.] errors may be quite common [... which] frustrates repli- 
cation and prevents later researchers from building on earlier research.” 

19 Online unter https://osf.io/ezcuj/, erläutert von Open Science Collaboration, Persp Psy 
Sci 2012, 657; Carpenter, Sci 2012, 1558; Yong, Nature 2012, 298; Yong, SdW 2013, 2/58. 

°° ZB bei SSRN (papers.ssrn.com), RePEc IDEAS (ideas.repec.org/i/p.html) und arXiv 
(arxiv.org). 
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diebstahl zu verhindern?” und Arbeiten frühzeitig auf Konferenzen und Se- 
minaren zur Diskussion stellen zu können. Daher ermöglichen die in den 
Veröffentlichungsprozess eingebauten Qualitätskontrollen auf ihrer Kehr- 
seite geradezu, dass auch persönliche Animositäten und subjektive Hinter- 
gedanken in die Veröffentlichungsentscheidung einfließen.” 

Dass objektive, qualitätsgeleitete Veröffentlichungsentscheidungen so- 
gar eher Ausnahme als Regel sein könnten, illustriert ein klassisches (und 
natürlich heftig umstrittenes) Experiment:”” Bei zwölf hoch angesehenen 
psychologischen Zeitschriften wurde jeweils eine Studie zur Veröffentli- 
chung eingereicht, die zwei bis drei Jahre zuvor schon einmal veröffent- 
licht worden war. (Nur Name und institutionelle Anbindung der betreffen- 
den Autoren wurden durch fiktive Angaben ersetzt.) Gerade einmal drei 
von 38 beteiligten Schriftleitern und Gutachtern erkannten das Vollplagiat, 
von den übrigen neun Manuskripten wurden acht einhellig abgelehnt, teil- 
weise aufgrund ,,ernsthafter methodischer Mängel“. Dass lässt befürchten, 
dass Annahme oder Ablehnung einer Studie oft eher vom Zufall als von ih- 
rer Qualität abhängen.” 

Juristische Rezipienten müssen sich also bewusst sein, dass derjenige 
Teil der empirischen Forschung, der in kommerziell verlegten Zeitschriften 
dokumentiert ist, systematisch verzerrt ist. Dem zu begegnen versucht die 
siebte und letzte Phase des Forschungsprozesses. 


VII. Synthese 


In gewissen Abständen entstehen zwangsläufig Diskrepanzen im empiri- 
schen Erkenntnisrepertoire. Verschiedene Studien finden zu den gleichen 
Fragen unterschiedliche Ergebnisse — einerseits weil „gleiche“ Fragen (und 
der Weg, sie zu beantworten) nie identisch sind und schon kleine Unter- 
schiede große Folgen haben können, andererseits weil der Veröffentli- 
chungswettbewerb Innovationen belohnt und Forscher zwecks Profilbil- 
dung versuchen, sich voneinander abzugrenzen. Früher oder später wird 


21 In Disziplinen ohne preprint-Verfahren sind durchaus Fälle bekannt, in denen Gutach- 
ter die Ablehnung eines Textes empfohlen und ihn später als eigenen ausgegeben haben. 
(“This happened many many times.”, so Uwe Dirnagl im Vortrag “Good Scientific Practice” 
der 2™ Winter School “Ethics and Neuroscience” im BCCN Berlin am 19.2.2012; konkretes 
Beispiel etwa bei Hamblin, Brit Med J 1981, 1671). 

20 Salsburg, Statistics 2001, 192: “especially when there is some controversy associated 
with the subject, editors are tempted to publish that which is acceptable to the scientific com - 
munity”; Goldsmith/Vermeule, U Chi L Rev 2002, 153, 162: “senior scholars favor like-mind- 
ed scholarship and choke off the channels of intellectual change and development.” 

203 Peters/Ceci, Behav Brain Sci 1982, 187. 

204 So auch das Ergebnis der Studien von Cole/Cole/Simon, Sci 1981, 881 und 
Rothwell/Martyn, Brain 2000, 1964. 
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der tatsächliche Erkenntnisstand also nicht mehr ohne Weiteres zu ermit- 
teln sein, eine Synthese der Forschung wird erforderlich. 

Forschungssynthese erfolgt kontinuierlich durch die Bildung und Verfei- 
nerung von Theorien (dazu später 3.) und nimmt im Übrigen meist eine 
von zwei Formen an: die qualitative oder die quantitative. Damit sind nun 
— anders als bei der Differenzierung zwischen qualitativer und quantitativer 
Forschung allgemein (siehe oben § 1 D.I.) — tatsächlich ,,verbalisierende“ 
bzw. „beziffernde“ Forschungssynthesen gemeint. Um aber Verwechslun- 
gen von vornherein zu vermeiden, werde ich stattdessen von Forschungs- 
bericht (1.) und Forschungsauswertung (2.) sprechen. 


1. Forschungsbericht (narrative review) 


Das klassische Instrument der Forschungssynthese ist der „erzählende“ 
Forschungsbericht (narrative review). Er entspricht am ehesten dem, was 
in der Rechtswissenschaft als Kommentar bezeichnet wird: Ein Rezensent 
stellt relevante Erkenntnisse thematisch zusammen und diskutiert deren 
Verhältnis zueinander. Dabei muss er um Objektivität und Vollständigkeit 
bemüht sein, damit der Forschungsbericht als aussagekräftige Grundlage 
für weitere Forschung dienen kann. 

Forschungsberichte sind meist ohne statistische Kenntnisse verständlich 
und auch für Laien leicht zu lesen. Sie „haben dort ihren Platz, wo es um 
die Kritik und den systematischen Vergleich von Theorien oder von inhalt- 
lichen Interpretationen empirischer Befunde geht.’ Ihre große Stärke 
liegt darin, die historische Entwicklung eines Forschungsgebiets ein- 
schließlich seiner Querverbindungen zu anderen Gebieten geordnet darstel- 
len zu können.” Forschungsberichte erzählen also Geschichten, das Attri- 
but „narrativ“ könnte daher kaum besser gewählt sein. Ebenso wie jeder 
Geschichtenerzähler — oder der Verfasser eines juristischen Kommentars — 
kann sich der Rezensent allerdings nicht davon befreien, durch Aufbau, 
Ablauf und Sprache seiner Darstellung subjektive Wertungen zu transpor- 
tieren.” Überspitzt lässt sich deshalb fragen, warum eine empirische Dis- 
ziplin, die ihren Gegenstand mittels quantitativer Methoden von subjekti- 
ven Urteilen befreien will, gerade im Rahmen der Forschungssynthese die- 


205 Wagner/Weiß, KZfSS Sonderheft 2004, 479, 481. 

206 Ellis, Effect Sizes 2010, 90: “useful for documenting the unfolding story of a particular 
research theme.” 

207 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 153: „Reviews verschiedener 
Wissenschaftler zum gleichen Thema können durchaus einen unterschiedlichen Forschungs- 
stand vermitteln.“ 
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sen Anspruch plötzlich aufgeben und „unwissenschaftlich“ vorgehen soll- 
te.” Das hat vor allem drei Schwachstellen: 

Erstens sind die von verschiedenen Primärstudien berichteten Zahlen in 
den seltensten Fällen direkt vergleichbar. Deshalb kann ein Forschungsbe- 
richt die Ergebnisse solcher Studien nur entweder anhand der Signifikanz- 
werte vergleichen — die ja nie das eigentliche Forschungsinteresse bilden 
(dazu unten B.IV.) — oder anhand der Attribute, mit denen die Studienauto- 
ren ihre Ergebnisse verbalisieren. Diese Attribute werden aber ebenso oft 
übertrieben wie Hypothesen nachträglich angepasst werden, um Ergebnisse 
beeindruckender darzustellen. Dabei ist selbst ohne solche Hintergedanken 
eine völlig neutrale und objektivierte Verbalisierung schlicht unmöglich. 
Lässt man Wissenschaftler beispielsweise zwanzig in der Fachliteratur ver- 
öffentlichte Versionen der Aussage „Therapie A ist effektiver als Therapie 
B.“ nach dem darin ausgedrückten Überzeugungsgrad sortieren, so mag die 
selbe Aussage, die dem einen als überzeugteste erscheint, dem anderen ge- 
rade am wenigsten überzeugt scheinen.*” Welche Studie meint den größe- 
ren Effekt, wenn eine „deutliche“ Anhaltspunkte für einen Effekt berichtet, 
die andere ,,starke“? Welcher Studie kommt mehr Gewicht zu, wenn die 
eine „deutliche“ Anhaltspunkte für einen Anstieg, die andere aber „starke“ 
Anhaltspunkte für einen Abfall berichtet? Hier hat der Rezensent praktisch 
nur drei Möglichkeiten: Er kann entweder nach Plausibilität entscheiden, 
also alle systematisch erhobene Empirie doch wieder an seiner eigenen 
subjektiven Willkür messen. Oder er ignoriert alle verbalen Umschreibun- 
gen, zählt stattdessen die signifikant positiven, signifikant negativen und 
die insignifikanten Ergebnisse und entscheidet nach einer Mehrheitsregel 
(vote counting); mathematisch lässt sich allerdings zeigen, dass dieses Vor- 
gehen meist umso mehr Fehler erzeugt je mehr Studien der Rezensent be- 
riicksichtigt.”'° Drittens bleibt dem Rezensenten nur die Feststellung, der 
Forschungsstand sei unklar (mixed evidence) und weitere Forschung erfor- 
derlich — doch wieviel weitere Forschung? Wann reicht die Evidenz aus, 
um auch nur eine widersprechende Studie aufzuwiegen? Spätestens hier 
lässt sich eine willkürliche Grenzziehung nicht mehr vermeiden. 


208 Bushman/Wells, Pers Soc Psy Bull 2001, 1123: “It is somewhat ironic that the tradition- 
al review of scientific data has typically been conducted in an unscientific fashion. In the tra- 
ditional narrative review, the reviewer uses ‘mental algebra’ to combine the findings from a 
collection of studies and describes the results verbally.”; Stanley, J Econ Surv 2005, 309, 310: 
“non-experimental empirical economic research loses all claim to epistemic authority.” 

20 So das Ergebnis des originellen Versuchs von Dubben/Beck-Bornholdt, Fehlinformati- 
on 2011, 189 ff.; vgl. auch Abelson, Principled Argument 1995, 54: “Some researchers [...] 
call correlation coefficients of .35 ‘modest,’ whereas others label them ‘substantial.’”; aus 
Sicht des deutschen Rechts Scholl, NJW 1983, 319. 

210 Hedges/Olkin, Psy Bull 1980, 359. 
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Zweitens sind Rezensenten, die ein Feld hinreichend tiberblicken um es 
zu synthetisieren, fast immer auch selbst Primärforscher. Sie haben also ein 
handfestes Interesse daran, eigene Studien aufzuwerten und widerspre- 
chende Studien zu diskreditieren oder gar zu „übersehen“.”'' Ebenso wie 
Replikationen selten veröffentlicht werden, wenn der Autor der Ausgangs- 
studie zum Gutachter bestellt wird (oben nach Fn. 192), setzen auch For- 
schungsberichte tendenziell persönliche Autorität an die Stelle überzeugen- 
der Methodik. Genau wie die Kreuzbegutachtung oft zu nachgerade zufäl- 
ligen Ergebnissen führt (vgl. oben bei Fn. 204), weil sich immer genug Ar- 
gumente für und gegen eine bestimmte Studie finden, können sich auch 
Forschungsberichte nicht davon frei machen, den Forschungsstand so dar- 
zustellen, wie der Rezensent ihn wahrnimmt.’ Und warum sollte sich der 
Rezensent weniger von „hochsignifikanten“ aber verschwindend geringen 
Effekten oder von „großen“ Effekten bei noch größerer Streuung blenden 
lassen als Gutachter, die entsprechende Studien zur Veröffentlichung emp- 
fehlen??'’ Wer hier Rezensent ist, ist typischerweise dort Gutachter. Von ei- 
nem Forschungsbericht darf also nicht erwartet werden, dass er fragwürdi - 
ge Ergebnisse aussortieren oder einen besseren Qualitätsfilter abgeben 
kann als die Kreuzbegutachtung. 

Drittens — und hier liegt der mit Abstand größte Mangel von For- 
schungsberichten — greifen Rezensenten nur auf veröffentlichte Studien zu- 
rück. Die Veröffentlichungslandschaft ist aber kein maßstabsgetreues Ab- 
bild der Forschungslandschaft, sondern vielfach systematisch verzerrt 
(oben VI.). Forschungsberichte vernachlässigen diese Verzerrungen, wer- 
den sie also eher perpetuieren als korrigieren. 


2. Forschungsauswertung (meta analysis) 


Die Alternative zum Forschungsbericht bildet die stärker formalisierte For- 
schungsauswertung, die auch als Metastudie bezeichnet wird (von griech. 


21 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 153: ,,Unliebsame Studien, die 
das Gegenteil beweisen, werden [.] einfach nicht beachtet.“; Rosenthal/DiMatteo, Ann Rev 
Psy 2001, 59, 62: “it may be all too tempting for authors of narrative reviews consciously or 
unconsciously to select and describe studies to support their own understanding”; Ellis, Effect 
Sizes 2010, 96: “Reading a narrative review one usually cannot tell whether it provides a full 
or partial survey of the literature. Were awkward findings conveniently ignored?” 

212 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 153: „häufig zu beobachten ist, 
dass die Autoren solcher Artikel die Literatur oft [sic] so auswählen, dass ihre vorgefassten 
Schlussfolgerungen bestätigt werden.“ 

213 Bushman/Wells, Pers Soc Psy Bull 2001, 1123 demonstrierten etwa, dass die Ergebnis- 
se von Studien mit besonders prägnantem Titel höher gewichtet werden als dieselben Ergeb- 
nisse unter einem weniger einprägsamen Titel. 
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usta meta, „nach“, in der überkommenen Fehldeutung als „über, 
jenseits“),”'* weil sie nicht den für das Forschungsinteresse maßgeblichen 
Ausschnitt der Realität beobachtet, sondern die Forschung über diesen 
Realitätsausschnitt. Metastudien sind gewissermaßen „Studien über Studi- 
en“? 


a) Grundprinzip 


Metastudien werten nicht beobachtete Rohdaten aus, sondern die Parame- 
ter aus früheren Auswertungen von beobachteten Rohdaten. Der oben 
(nach Fn. 101) beschriebene Abstraktionsschritt von den Rohdaten zum Pa- 
rameter der beschreibenden Statistik vollzieht sich hier also erneut, von 
den Parametern verschiedener Rohdatensätze zu den Parametern der Meta- 
studie. Das klingt umständlich — und ist es auch. Die ideale Metastudie 
würde nicht Parameter auswerten, sondern Rohdaten. Sie würde die Roh- 
daten aller früheren Studien zu einem Thema sammeln, sie zu einer riesi- 
gen Datenmenge vereinigen und diese Datenmenge auswerten.?!° Dass es 
solche idealen Metastudien nicht gibt, liegt einerseits daran, dass Forscher 
ihre Rohdaten selten veröffentlichen oder auf Nachfrage herausgeben 
(müssen), andererseits daran, dass veröffentlichte Parameter einfacher zu 
verwenden sind, weil sie halbwegs einheitlich berichtet werden, während 
jeder Forscher seine Rohdaten anders aufzeichnet (kodiert). 

Das Vorgehen der idealen Metastudie verdeutlicht, welchen Zweck Me- 
tastudien im Kern haben: Sie sollen einen größeren Ausschnitt der interes- 
sierenden Grundgesamtheit beobachten und damit das Gewicht der schlie- 
Benden Statistik im Erkenntnisprozess reduzieren. Paradoxerweise gelingt 
das gerade durch eine Anwendung der schließenden Statistik. Aus demsel- 
ben Grund, aus dem Primärstudien Stichproben von mehr als einer Beob- 
achtung ziehen, ziehen Metastudien Stichproben von mehr als einer Pri- 
märstudie: Je größer die Stichprobe, desto geringer die durchschnittliche 
Wertestreuung (Varianz) und das Gewicht einzelner Extremwerte (Ausrei- 
Ber), und desto zuverlässiger erlaubt die schließende Statistik die Trennung 
systematischer von zufälligen Einflüssen. 


214 Vgl. Dudenredaktion, Fremdwörterbuch 2000, 865 („Metaphysik“): Als „das, was hin- 
ter der Physik (steht)“ (ta meta ta physika) bezeichnete Andronikos von Rhodos „die philoso- 
phischen Schriften des Aristoteles, die in einer Ausgabe des 1. Jh.s v.Chr. hinter den naturwis - 
senschaftlichen Schriften angeordnet waren“; weiter Harper, Etymology 2014, Stichworte 
“meta-” und “metaphysics”: Weil jene Schriften die Anfangsgründe des Seins jenseits der 
Physik behandelten, missverstanden spätere Interpreten die Vorsilbe so, wie es sich inzwi- 
schen eingebürgert hat. 

215 Ellis, Effect Sizes 2010, 94: “literally the statistical analysis of statistical analyses”. 

216 Wagner/Weiß, KZfSS Sonderheft 2004, 479 f. m.w.N. („gepoolte Auswertung“). 
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Dieses verkürzt dargestellte Grundprinzip sollte anschaulicher werden, 
wenn die Entstehung einer Metastudie Schritt für Schritt verfolgt wird. 
Weil Metastudien auch nur quantitativ-empirische Studien sind, gilt für sie 
dasselbe Sieben-Phasen-Schema, dessen siebte Phase hier gerade darge- 
stellt wird.” „Eine Meta-Analyse umfasst sämtliche Elemente des sozial- 
wissenschaftlichen Forschungsprozesses wie sie auch bei einer Primärfor - 
schung vollzogen werden“,”'® deshalb unterliegen Metastudien auch weit- 
gehend denselben Schwierigkeiten — insbesondere bei der statistischen 
Auswertung und bei der Veröffentlichung — wie Primärstudien. Ich ver- 
zichte daher auf deren Wiederholung und deute im nachfolgenden Ablauf- 
schema nur zusätzliche, für Metastudien spezifische Aspekte an. Details 
finden sich wiederum in der einschlägigen Lehrbuchliteratur.*”” 


b) Ablauf 


Wie jede Forschungssynthese, beginnt die Metastudie mit einer Sichtung 
der Literatur. Diese ist allerdings wesentlich strenger formalisiert als etwa 
beim Forschungsbericht, weil die Metastudie zur Auswertung schließende 
Statistik einsetzt und deshalb sicherstellen muss, dass die ausgewertete Li- 
teratur sich von der tatsächlichen Forschungslandschaft nicht systematisch 
unterscheidet. Das bedeutet auch, dass die Metastudie sich nicht auf die 
veröffentlichte Literatur beschränken darf, um nicht deren Verzerrungen 
zum Opfer zu fallen. Deshalb werden in der Regel mindestens fünf Schritte 
unternommen, die jeweils exakt zu dokumentieren sind, um die Metastudie 
replizierbar zu machen: 


Erstens wird in einschlägigen Datenbanken recherchiert wie unter 1.2. 
beschrieben, allerdings ausgedehnt auch auf „graue Literatur wie 


217 In der Tat einschließlich der siebten Phase: Auch Metastudien bedürfen der Replikation 
(Allen/Preiss, J Soc Behav Pers 1993, 9, 11) und mittlerweile existieren zahlreiche Meta-Me- 
tastudien (z.B. Lipsey/Wilson, Am Psy’st 1993, 1181 über 156 Metastudien, beruhend auf 1,26 
Mio. Teilnehmern; Grissom, J Cons Clin Psy 1996, 973 über 46 Metastudien; 
Cafri/Kromrey/Brannick, Multivar Behav Res 2010, 239 über 113 Metastudien; Mitchell, un- 
ten § 3 B.IV.3.; zur Methodik ausf. Cooper/Koenka, Am Psy’st 2012, 446) sowie Literaturbe- 
richte über Metastudien — Bsp. unten § 3 in Fn. 51 und Fn. 183, sowie Richard/Bond/Stokes- 
Zoota, Rev Gen Psy 2003, 331 mit den Ergebnissen von 322 sozialpsychologischen Metastu- 
dien, die 1898-1998 aus 25.000 Primärstudien mit 8 Mio. Teilnehmern entstanden waren. 

218 Wagner/Weiß, KZfSS Sonderheft 2004, 479, 483. 

2 Unübertroffen Ellis, Effect Sizes 2010, 89 ff. (Kap. 5 und 6); gründlich auch Bortz/Dö- 
ring, Forschungsmethoden 2006, 671 ff. (Kap. 10) und Sedlmeier/Renkewitz, Forschungsme- 
thoden 2008, 661 ff. (Kap. 22); sehr knapp Finkelstein, Basic Concepts 2009, 122 ff. und 
Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 153 ff.; ganz ausf. Cooper/Hedges/ 
Valentine, Hdb Synthesis 2009; verbreitete Missverständnisse behandeln Aguinis/Pierce u.a., 
Org Res Meth 2011, 306. 
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Institut[s]zeitschriften“,””° frei im Internet zugängliche Studien sowie et- 
waige Medien für Nullergebnisse (siehe oben bei Fn. 184). 

Zweitens werden die Inhaltsverzeichnisse der letzten Jahrgänge aller für 
die Forschungsfrage besonders relevanten Zeitschriften manuell durchge- 
sehen, um zu verhindern, dass relevante Texte übersehen wurden. 

Drittens werden die im betreffenden Forschungsfeld besonders aktiven 
Forscher angeschrieben, um weitere (insbesondere unveröffentlichte) Stu- 
dien ausfindig zu machen. 

Viertens werden über einschlägige E-Mail-Verteiler, Internet- und ande- 
re Foren weitere unveröffentlichte Studien eingeworben, die dem Veröf- 
fentlichungsprozess zum Opfer gefallen sind. 

Fünftens werden systematisch alle Querverweise verfolgt — sowohl 
durch eine vorwärtsgerichtete Verweissuche (oben I.2.) ausgehend von be- 
sonders relevanten Studien, als auch durch eine systematische Sichtung der 
Literaturverzeichnisse aller aufgefundenen Studien. 


Am Ende dieser großangelegten Recherche steht eine Sammlung oft 
hunderter oder tausender Studien. Weil die nachfolgenden Schritte nicht 
minder aufwändig sind als der erste, empfiehlt es sich daher, eine gut 
durchdachte Auswahl zu treffen. Denn zum einen muss sichergestellt wer- 
den, dass die auszuwertenden Studien wirklich ähnliche Fragestellungen 
mit vergleichbaren Methoden bearbeiten, sonst weist die Metastudie ein 
„Apfel-und-Birnen-Problem“ auf (apples and oranges),-' ist also nicht 
sinnvoll deutbar. Zum anderen ist es für eine Metastudie gar nicht erforder- 
lich, durchweg alle bekannten Studien auszuwerten, sondern es genügt eine 
unverzerrte und hinreichend große Stichprobe.*” In der Metastudie geht 
also Klasse vor Masse, wobei natürlich auch hier alle Auswahlkriterien 
ausdrücklich und nachvollziehbar niederzulegen sind. 

Der danach verbleibende Grundbestand an Studien?” ist sodann detail- 
liert zu kodieren (katalogisieren). Dafür sind aus jeder Studie die relevan- 
ten Auswertungsparameter zu entnehmen oder nachträglich zu errechnen. 
Aufgrund der ganz unterschiedlichen Berichtsformate verschiedener Zeit- 
schriften und der unterschiedlichen Aufbau- und Schreibstile verschiedener 


20 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 155. 

21 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 156; Rosenthal/DiMatteo, Ann 
Rev Psy 2001, 59, 68; Wagner/Weiß, KZfSS Sonderheft 2004, 479, 495 f.; Ellis, Effect Sizes 
2010, 98; Finkelstein, Basic Concepts 2009, 123: “Two different studies rarely measure pre- 
cisely the same parameter. [...] One must then ask what one is testing or estimating when one 
combines a heterogeneous group of studies.” 

22 Ellis, Effect Sizes 2010, 99 m.w.N. 

23 Ellis, Effect Sizes 2010, 99: “There could be anywhere from a few to several hundred 
studies in this group.” 
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Autoren erfordert das nicht selten eine langwierige Suche im Text,”* mit- 
unter sogar eine Kontaktaufnahme mit den jeweiligen Autoren. Soweit sich 
bei der Durcharbeitung der Studien gravierende methodische Schwächen 
zeigen, müssen solche Studien gekennzeichnet oder entfernt werden, um 
das „Müll-rein-Müll-raus-Problem“ (garbage in, garbage out)” zu ver- 
meiden, das die Aussagekraft der Metastudie beeinträchtigen würde. ””° 
Desweiteren werden nach der Kodierung oft diagnostische Instrumente 
verwendet, um verbleibende Verzerrungen der Stichprobe zu erkennen und 
bestenfalls zu korrigieren.” 

Sind die relevanten Parameter jeder Studie katalogisiert, müssen nun die 
Effektgrößen vereinheitlicht werden. Die beiden bereits erwähnten Effekt- 
größenmaße (Mittelwertsunterschied und Korrelationskoeffizient, oben bei 
Fn. 115) sind nur die bekanntesten Vertreter zweier Familien — der Unter- 
schiedseffekte (d-Familie) und der Zusammenhangseffekte (r-Familie) — zu 
denen noch viele weitere Maße gehören.” Oft wird gar keines berichtet, 
dann muss es erst aus anderen Parametern errechnet werden. Am Ende der 
Vereinheitlichung liegt für alle Studien jeweils ein Wert desselben Effekt- 
größenmaßes vor, also im Zweifel ein Maß für den Zusammenhang zweier 
Variablen, standardisiert an der Stichprobengröße und der Wertestreuung. 

Dieses Maß sowie etwaige Kontrollvariablen gehen dann in die statisti- 
sche Auswertung ein, die technisch vergleichsweise anspruchslos,”” 
gleichwohl aber nicht frei von Herausforderungen ist.” Zuletzt werden die 
Ergebnisse der Metastudie gedeutet, was natürlich heißt, auf diejenigen 


4 Ellis, Effect Sizes 2010, 99: “Locating this information for a large set of studies may 
require hundreds of hours of careful reading.” und weiter auf 101: “coding is hard, mind- 
numbing work. It starts out being fun but often ends with the reviewer abandoning the project 
out of frustration or fatigue. Many of those who make it through the coding process never 
wish to repeat the experience.” 

»5 Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 66 f.; Wagner/Weiß, KZfSS Sonderheft 
2004, 479, 495 f.; Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 155 f.; Ellis, Effect 
Sizes 2010, 123. 

6 Das „gilt für jedes statistische Verfahren“ (Bortz/Döring, Forschungsmethoden 2006, 
78), wird aber im Zusammenhang mit der Metastudie öfter betont als sonst. 

7 Zu diesen Instrumenten gehören etwa der Trichtergraph (funnel plot) und die kritische 
Gegenevidenzmasse (fail-safe N), näher Ellis, Effect Sizes 2010, 120 ff; vgl. auch 
Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 66; Wagner/Weiß, KZfSS Sonderheft 2004, 479, 
496 ff.; Stanley, J Econ Surv 2005, 309, 314 ff.; Weiß/Wagner, JBNST 2011, 661. 

»8 Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 70 f.; ausf. Ellis, Effect Sizes 2010, 6 ff. 
mit tabellarischer Zusammenfassung über die Seiten 13-14. 

9 Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 69: “The level of quantitative skill and 
training required to do meta-analysis is very modest, [... with] few rather simple calculations 
needed to carry out a high-quality meta-analysis.”; Ellis, Effect Sizes 2010, 97: “the statistical 
analyses associated with meta-analysis are not difficult. If you can add, subtract, multiply and 
divide, you can combine effect sizes using a variety of approaches.” 


104 § 2: Grundlegung einer pragmatischen Rezeptionslehre 


Deutungen zu verzichten, die die Autoren jeder einzelnen Primärstudie ih- 
ren Daten angedacht hatten (vgl. noch unten bei Fn. 341). Diese haben für 
die Metastudie keinen Belang. 


c) Vorteile 


Aus dem Ablaufschema sollte bereits deutlich werden, dass Metastudien 
viele Nachteile von traditionellen Forschungsberichten vermeiden, und die 
meisten durch den Veröffentlichungsprozess verursachten Verzerrungen be- 
heben.””' Zusammengefasst lassen sich drei Hauptvorteile identifizieren: 


„Erstens bereichert die Metastudie den Vorgang der Forschungssynthese um ein hohes 
Maß an Disziplin. Viele Entscheidungen in diesem Vorgang sind subjektiv, aber anders 
als der Autor eines Forschungsberichts muss der Autor einer Forschungsauswertung diese 
Entscheidungen ausdrücklich treffen. [...] Metastudien sind wie wissenschaftliche Buch- 
prüfungen. Jeder Schritt muss aufgezeichnet, gerechtfertigt und für andere nachvollzieh- 
bar gemacht werden. 


Zweitens zwingen Metastudien, mit ihrem Schwerpunkt auf Datensammlung statt Daten - 
deutung, den Autor dazu, sich sehr gut mit der Evidenz vertraut zu machen. Schlussfolge- 
rungen aus Kurzzusammenfassungen zu entnehmen reicht nicht; der Autor muss die Me- 
thoden und Daten jeder einzelnen Studie beurteilen. 


Drittens, und das ist am wichtigsten, können Metastudien Fragen über die Beschaffenheit 
eines Effekts sogar dann klar beantworten, wenn sich die Befunde widersprechen.“ ??? 


Werden Metastudien verständig und kunstgerecht durchgeführt, stellen sie 
deshalb die beste bekannte Synthesemethode dar.”*? So haben mehrere em- 
pirische Studien (für die aber noch keine Synthese zu finden war) belegt, 
dass Forschungsauswertungen den Stand der Erkenntnis deutlich besser ab- 
bilden als Forschungsberichte.””* Diese Erkenntnis wirkt sich unmittelbar 
auf die Stellung der Metastudie in der empirischen Erkenntnishierarchie 
aus, die ich unter B.VII. entwickeln werde. 


20 Ellis, Effect Sizes 2010, 117: “the real challenge is in identifying and dealing with mul- 
tiple sources of bias.”; pointierte Ubersicht bei Aguinis/Pierce u.a., Org Res Meth 2011, 306. 

31 Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 61: “Meta-analysis allows researchers to 
arrive at conclusions that are more accurate and more credible than can be presented in any 
one primary study or in a nonquantitative, narrative review.” 

22 Ellis, Effect Sizes 2010, 96; ähnl. Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 63 ff., 
dort 64: “To extract the information needed to calculate effect sizes, a meta-analyst must be- 
come quite familiar with precisely what any given study actually found.” 

33 Farley/Lehmann/Mann, J Mktg Res 1998, 496, 501: “there is presently no better way to 
cumulate knowledge formally, as is evidenced by its use in life-or-death situations involving 
medical treatments.” 

34 Cooper/Rosenthal, Psy Bull 1980, 442; Mann, Sci 1994, 960; Bushman/Wells, Pers Soc 
Psy Bull 2001, 1123. 
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3. Theoriebildung 


Eine letzte Form der Forschungssynthese ist die Theorie.” Als dritte Form 
der Forschungssynthese ans Ende der vorliegenden Darstellung gestellt zu 
werden, wird dem Stellenwert von Theorien in der empirischen Forschung 
eigentlich nicht gerecht. Theorien sind der Grund und das Ziel empirischer 
Forschung, die Quelle vieler Hypothesen und zugleich das eigentliche Er- 
kenntnisinteresse hinter den meisten — erkundenden, beschreibenden oder 
schließenden — Studien.’ Theorien helfen empirischen Forschern dabei, 
Hypothesen axiomatisch abzuleiten, also deduktiv zu arbeiten, und dadurch 
logisch unzulässige Induktionsschlüsse zu vermeiden: ”” 


„Die Gewinnung von Hypothesen aus Theorien (durch Deduktion) und die empirische 
Prüfung der Hypothesen (und damit der Theorie) ist der Normalfall in theoretisch-empiri - 
schen Wissenschaften. Diese Vorgehensweise entspricht auch dem deduktiv-empirischen 
Wissenschaftsmodell Poppers.“?"* 


Dieses philosophische Ideal kann die Theoriebildung freilich nur ,,in der 
Theorie“ erfüllen. Praktisch arbeitet empirische Forschung allenfalls 
„hauptsächlich“ deduktiv und passt Theorien nicht nur durch Falsifikation, 
sondern auch durch Exploration an die Realität an: „Im normalen For- 
schungsprozess spielt also immer beides eine Rolle: Induktion und Deduk- 
tion.“”°” Zudem unterscheidet sich die Axiomatisierung und Formalisierung 
solcher Theorien (also auch ihr Stellenwert für die Aufstellung empirischer 
Hypothesen) zwischen verschiedenen Disziplinen ganz erheblich,“ daher 
betrachte ich Theorien vorliegend nur in ihrer Synthesefunktion.**! 

In dieser Funktion ermöglichen Theorien den Schritt von der reduktio- 
nistischen Analyse zurück zur holistischen Schlussfolgerung und erfüllen 
damit eine wichtige Brückenfunktion.’” Sie postulieren Zusammenhänge 


35 Statt aller Walker/Willer in: Webster/Sell, Experiments 2007, 52: “theory is a method of 
analysis and synthesis.” 

36 Ausf. Sedlmeier/Renkewitz, Forschungsmethoden 2008, 39 ff.; Bortz/Döring, For- 
schungsmethoden 2006, 15 ff., 352 ff.; laut Hussy/Schreier/Echterhoff, Forschungsmethoden 
2010, 3 ist die Theoriebildung sogar Definitionsmerkmal einer „empirischen Wissenschaft“. 

237 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 8; zum Induktionsproblem kurz 
Eidenmüller, JZ 1999, 53, 54; ausf. Ulen, U Il L Rev 2002, 875, 882 ff. 

38 Diekmann, Sozialforschung 2012, 190; Werkauswahl in Popper, Problemlösen 2001. 

29 Sedlmeier/Renkewitz, Forschungsmethoden 2008, 25. 

24 Engel in: Engel u.a., Recht und Verhalten 2007, 363, 376 ff.; Camerer, PNAS 1999, 
10575: “to an economist, a theory is a body of mathematical tools and theorems. To a psy- 
chologist, a theory is a verbal construct or theme that organizes experimental regularity.” 

> Ausf. zur juristischen Rezeption sozialwissenschaftlicher Theorie Engel in: Engel, Me- 
thodische Zugänge 1998, 11. 

22 So auch Mook, Am Psy’st 1983, 379, 384 f.; Walker/Willer in: Webster/Sell, Experi- 
ments 2007, 51 f.; anders akzentuiert /etswaart in: Plett/Ziegert, Empirische Rechtsforschung 
1984, 210, 211: Briicke zwischen “mere information and meaningful knowledge.” 
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zwischen unterschiedlichen empirischen Erkenntnissen und bestimmen die 
Geltungsbedingungen und Grenzen solcher Erkenntnisse. Auf lange Sicht 
sollten Theorien also die empirischen Erkenntnisse über einen größeren 
Realitätsausschnitt zusammenfassen und systematisieren. Dadurch erleich- 
tern sie es dem Rezipienten, einen Überblick zu gewinnen, tragen aber zu- 
gleich ein bestimmtes Vorverständnis an empirische Untersuchungen her- 
an,”” das den Raum der möglichen Erkenntnisse beschränkt: 


„Theorien sind Modelle des Phänomens, welches erklärt werden soll: eine Beschreibung 
des Phänomens, welches von allen nicht essentiellen Einzelheiten befreit ist — ungefähr 
so, wie ein Stadtplan eine Beschreibung einer Stadt ist, die einen führen soll. Je nach 
Zweck des Plans werden nur die Hauptstraßen eingezeichnet, manchmal andere Straßen, 
aber jedenfalls nicht Fußgängerüberwege und Ampeln. Andere Stadtpläne, etwa für eine 
Baufirma, die Kanalisationen baut, müssen dagegen Erhöhungen, Elektrizitätskabel etc. 
kennzeichnen.“ 


Die Entscheidung, welche „Einzelheiten“ für eine Theorie „essentiell“ 
sind, ist freilich eine wertende. Der Rezipient muss implizite normative 
Annahmen einer Theorie deshalb kritisch hinterfragen und unter Umstän- 
den durch eigene Wertungen ersetzen (dazu schon oben bei Fn. 167). So- 
weit dies gelingt, kann aber auch die Theorie als eine Art der verstehenden 
Forschungssynthese gewinnbringend rezipiert werden. 


B. Grundsätze der empirischen Rezeption 


Aus dem eben dargestellten Forschungsablauf lassen sich sieben pragmati- 
sche Grundsätze (Faustregeln) ableiten für die juristische Rezeption empi- 
rischer Erkenntnis. Davon sind der erste und letzte eher grundsätzlicher 
Natur, während die mittleren fünf dabei helfen sollen, die Ergebnisse ein- 
zelner Primärstudien zu würdigen. Die nachfolgenden Ausführungen ver- 
tiefen also das bereits Dargelegte unter dem stärker anwendungsbezogenen 
Blickwinkel des Rezipienten. 


#3 Ausdr. Atteslander, Methoden 2010, 21: „Theorien [sind] im Grunde Entscheidungen 
über die Bedeutung und Bedingungen von erfassbaren Erscheinungen der sozialen Wirklich- 
keit.“ 

24 Yan Aaken, Rational Choice 2003, 37; ebenso Lawless/Robbennolt/Ulen, Methods 
2010, 9, Diekmann, Sozialforschung 2012, 145: „Die Landkarte soll die Wirklichkeit nicht fo- 
tografisch abbilden, sondern die wesentlichen Merkmale und Zusammenhänge hervorheben. 
Je nach Zielsetzung wird man [...] einen mehr oder minder feinen Maßstab wählen.“ 
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I. Alle empirische Forschung ist implizit normativ. 


Der für die Rezeption empirischer Forschung vielleicht wichtigste Grund- 
satz betrifft die Anschlussfähigkeit der Rechtswissenschaft an empirische 
Disziplinen. Er beruht auf der Erkenntnis: 


»» Reine‘ Empirie, die voraussetzungslos die Wirklichkeit auf den Begriff bringt, ist aus 
erkenntnistheoretischen Gründen unmöglich. Alle Empirie ist durch Sprache, Beobach- 
tungsgewohnheiten, wissenschaftliche Theorien und Hypothesen bewußt oder unbewußt 
geleitet. Wirklichkeit begegnet uns — wissenschaftlich feststellbar — immer nur unter sol- 
chen leitenden Gesichtspunkten.“ 


Empirische Erkenntnisse bilden die Wahrheit also nicht objektiv ab, son- 
dern transportieren immer Wertungen.” Diese Wertungen zu erkennen und 
unter einem juristischen Blickwinkel zu würdigen — „sowohl mit Respekt- 
losigkeit als auch mit angemessener wissenschaftlicher Ernsthaftigkeit“ 
—, bildet die wohl fruchtbarste Rezeptionsstrategie. Schließlich sind Juris- 
ten dank ihrer intimen Vertrautheit mit den Institutionen des praktischen 
Lebens in einer hervorragenden Position, um die Problemstrukturen her- 
auszuarbeiten, denen die empirische Forschungsplanung Rechnung tragen 
muss und von denen sie nicht abstrahieren kann, ohne die Problemdefiniti- 
on nennenswert zu ändern und die Gültigkeit der so gewonnenen Erkennt- 
nis in Frage zu stellen.” 
Dabei stellt sich zunächst das Relevanzproblem: 


„Die Menge möglicher Forschungsprobleme ist unendlich, Zeit und materielle Ressour- 
cen [...] begrenzt. In welche Richtung das Interesse der Forschung gelenkt wird, [...] ist 
im höchsten Maße ein Wertproblem.“*” 


#5 Starck, JZ 1972, 609, 614 (These 3); Augsberg, Staat 2012, 117, 125 zur „Empirie an 
sich“; ebenso ist nach Arndt, Empirie 2008, 45 „schon die Entscheidung für die Betrachtung 
eines Wirklichkeitsausschnittes subjektiv: Auswahl, Beschreibung und Interpretation von tat- 
sächlichen Vorgängen [...] hängen [.] von vielfältigen individuellen Faktoren ab“; 

#6 Langenbucher, ZGR 2012, 314, 315 unter dem Schlagwort „Vorverständnisprägung“ 
(freilich ihrerseits durch ein wissenschaftsphilosophisches Vorverständnis geprägt); zu eng 
daher Petersen, Staat 2010, 435, 447: „enthalten auch viele empirische Studien implizite nor- 
mative Wertungen“ (Hervorhebung nur hier); vgl. Augsberg, Staat 2012, 117, 118. 

47 Atteslander, Methoden 2010, 23. 

48 Ho/Rubin, Ann Rev L Soc Sci 2011, 17, 34: “research should empower the broader le- 
gal academic community—precisely the community with the comparative advantage—to as- 
sess the credibility of the inference.”; Schneider/Teitelbaum, Utah L Rev 2006, 53, 66: “Legal 
academics, because of their legal training, can perceive and grasp some critical things about 
legal institutions better than lay scholars.”; Neumann/Krieger, Clin L Rev 2003, 349, 390: 
“researchers with only a social science background (and no legal training and experience) of- 
ten produce scholarship that [...] suffers from naiveté about law and its institutions.” 

?9 Diekmann, Sozialforschung 2012, 80 (zu den anderen drei Aspekten des „Werturteils- 
problems“ vgl. 76 ff.). 
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Was Juristen empirisch untersuchungswürdig erscheint, muss sich keines- 
wegs mit dem decken, was empirische Forscher tatsächlich untersuchen 
(vgl. schon $ 1 bei und in Fn. 208). Insbesondere ist empirische Forschung 
oft weniger einer in der Lebenswirklichkeit vorgefundenen Problemstruk- 
tur verpflichtet als vielmehr der Verwirklichung ihres Methodenpotentials. 
Nach dem Kaplan-Maslowschen Hammerprinzip”” wird der Untersu- 
chungsgegenstand oft so definiert und abgegrenzt, wie er sich mit dem em- 
pirischen Instrumentarium am besten untersuchen lasst.*' Das trägt zwar 
sicher dazu bei, dass das empirische Endprodukt hohen methodischen 
Standards genügt. Umso weiter aber ist es dem direkten Zugriff des Rezipi- 
enten entrückt, weil zusätzlich zur eigentlichen Problemstruktur zahlreiche 
Annahmen und implizit normative Entscheidungen erforderlich wurden. 
Solche implizit normativen Entscheidungen finden sich an vielen Stel- 
len des empirischen Verfahrens, vom gewählten Gültigkeitskriterium (dazu 
unten § 3 A.I.), über die Operationalisierung von Variablen,” bis hin zur 
Definition relevanter Effektgr6Ben”’? und den Methoden der statistischen 
Auswertung (siehe oben $ 2 A.IV.2.a) — „Werturteile und Interessen kön- 
nen sich bei diesen Entscheidungen bemerkbar machen.“*** Um sie kritisch 
hinterfragen zu können, muss „der juristische Rezipient [...] die normati- 
ven Implikationen herausarbeiten, die in dem (oft ebenfalls unausgespro - 
chenen oder bloß angedeuteten) analytischen Apparat versteckt sind.“ Er 


50 Kaplan, Inquiry 1964, 28: “Give a small boy a hammer, and he will find that every- 
thing he encounters needs pounding.” (ähnl. ebd., 11 mit der Geschichte vom Betrunkenen, 
der seinen Schlüssel im Dunklen verliert, aber unter der Straßenlaterne sucht, weil es dort hel- 
ler sei.); Maslow, Science 1966, 15: “I suppose it is tempting, if the only tool you have is a 
hammer, to treat everything as if it were a nail.” 

31 Krit. schon Nußbaum, AcP 1955, 453, 478: „Die Statistik-Gläubigkeit [...] neigt dazu, 
die Aufmerksamkeit auf Punkte zu lenken, die statistisch erfaßbar sind oder als erfaßbar gel- 
ten; und daher andere, häufig wichtigere Probleme zu vernachlässigen“; Schneider/Teitel- 
baum, Utah L Rev 2006, 53, 66: “social scientists’ research is usually driven by the theoreti- 
cal concerns and traditional topics of their disciplines, not what lawmakers need to know.” 

52 Petersen, Staat 2010, 435, 451 ff.; Beller, Forschen lernen 2008, 17: ,,Operationalisie- 
rung ist in letzter Konsequenz immer eine normative Entscheidung, mit der gleichzeitig der 
Raum möglicher Ergebnisse definiert wird.“ 

253 Beller, Forschen lernen 2008, 110: „Die Bestimmung der (Mindest-)Größe eines prak- 
tisch bedeutsamen Effekts erfordert — wie die Festlegung des a- und B-Niveaus - eine inhalt- 
liche Auseinandersetzung mit der Fragestellung und ist keine statistische Frage.“; sie könne 
„nur durch eine ‚Güterabwägung‘ aufgrund inhaltlicher Überlegungen geklärt werden. Die 
verlangt letztendlich eine normative Entscheidung“ (104). 

°4 Diekmann, Sozialforschung 2012, 83; Mastronardi, Juristisches Denken 2003, Rn. 67: 
„Alle Sozialwissenschaft ist [...] ein (oft verborgenes) Stück weit normativ.“; noch kritischer 
Simmons/Nelson/Simonsohn, Psy Sci 2011, 1359 mit dem Untertitel “Undisclosed Flexibility 
in Data Collection and Analysis Allows Presenting Anything as Significant”. 

255 Engel in: Engel u.a., Recht und Verhalten 2007, 363, 388; Petersen, Staat 2010, 435, 
447. 
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bedarf also eines hinreichenden Verständnisses der empirischen For- 
schungslogik und Methoden, wie es die vorliegende Darstellung zu vermit- 
teln sucht. Skepsis und Argwohn allein genügen ebenso wenig wie blindes 
Vertrauen auf Statistik und Wissenschaftsstandards. Auf dem Basar der em- 
pirischen Forschung ist kritische Urteilskraft die Währung.” 


II. Sorgfältige Planung geht vor statistischer Raffinesse. 


An verschiedenen Stellen der vorangegangenen Darstellung wurde die Be- 
deutung der Studienplanung betont. Beispielsweise lassen sich Ursachen 
überhaupt nur durch einen bestimmten Studienentwurf, niemals aber durch 
die Datenauswertung isolieren (oben bei Fn. 53) und hängt die Bedeutung 
signifikanter Ergebnisse von der vorab ermittelten Teststärke ab (oben bei 
Fn. 82). Daraus erklärt sich der zweite Rezeptionsgrundsatz, der andernorts 
noch kürzer gefasst wurde: „Studienplanung übertrumpft Auswertungsme - 
thoden“.”” 

Die Datenauswertung mittels der Statistik kann eine reflektierte Deu- 
tung der Daten nur unterstützen und vorbereiten, aber nie ersetzen.” Oft 
genug wurde darauf hingewiesen, dass aus „schlechten“ (fehlerhaft erhobe- 
nen) Daten auch durch die beste statistische Auswertung niemals „gute“ 
(aussagekräftige replizierbare) Ergebnisse zu gewinnen sind.” Statistik- 
software macht noch keinen Statistiker, genau wie das Skalpell noch kei- 


6 Gorard, Brit J Sociol Edu 2006, 67, 77: “research is not typically taught as an exercise 
in judgement [...] judgement seems ‘subjective’ whereas computation is ostensibly ‘objec- 
tive’.”; Kaplan, Inquiry 1964, 29: “statistical formulas are but instruments after all; it is not 
they that produce scientific results but the investigator who uses them scientifically.” 

#7 Ho/Rubin, Ann Rev L Soc Sci 2011, 17, 22: “research design trumps methods of analy- 
sis.”; ähnl. Angrist/Pischke, J Econ Persp 2010, 3 zur “Credibility Revolution in Empirical 
Economics”; prägnant auch Guttman, Appl Stoch M D A 1985, 3: das „Gerüst“ der Statistik 
müsse sich dem „Gebäude“ der Wissenschaft anpassen; vgl. schon oben bei Fn. 129. 

58 Nickerson, Psy Meth 2000, 241, 290 f.: “There are no statistical procedures that can sa- 
fely be used without thought [...] Statistical methods should facilitate good thinking, and only 
to the degree that they do so are they being used well.”; Neumann/Krieger, Clin L Rev 2003, 
349, 391: “it leads in false directions when a researcher substitutes statistical gymnastics for 
an astute understanding of the human and social elements of a problem.”; nichts anderes mei- 
nen Angrist/Pischke, Econometrics 2009, 8: “Although inference issues are rarely very excit- 
ing, and often quite technical, the ultimate success of even a well-conceived and conceptually 
exciting project turns on the details of statistical inference.” 

29 Aiken, Edu Psy Meas 1994, 848, 850: “Dressing up meaningless data in the clothing of 
complex statistical methodology cannot transform a body of evidence into something of val- 
ue.”; Gorard, Brit J Sociol Edu 2006, 67, 76: “Complex statistical methods cannot be used 
post hoc to overcome design problems or deficiencies in datasets.”; Lawless/Robbennolt/Ulen, 
Methods 2010, 26: “without appropriate data, the available statistical techniques are mea- 
ningless.”; in der Physik können vor allem Himbeerkuchen die Datenerhebung gefährden, so 
Heinicke, Velocimetry 2013, 56. 
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nen Chirurgen macht” — und „das Resultat unüberlegter und mangelhaft 
geplanter empirischer ‚Forschung‘ [ist] nicht selten ein kaum noch genieß- 
barer Datensalat und frustrierte Forscher oder Forscherinnen.“?° Dennoch 
„hat sich die einstmalige Zahlenfeindlichkeit in eine fast schon übertriebe- 
ne, zumindest äußerliche Zahlenverehrung [...] umgekehrt.“ Die viel 
wichtigeren Fragen der Studienplanung treten demgegenüber oft in den 
Hintergrund. 

Illustrieren lassen sich diese Überlegungen an der empirischen Corpora- 
te-Governance-Forschung, die sehr oft die beeindruckende Größe ihrer Da- 
tensätze betont und komplizierte statistische Verfahren einsetzt, aber nicht 
reflektiert, welche Konsequenzen die zur Gewinnung dieser Datensätze an- 
gewandten Methoden und welche Grenzen die statistische Auswertung ha- 
ben.” Woraus bilden die untersuchten Unternehmen eine Stichprobe? Aus 
allen Unternehmen? Aus allen Aktiengesellschaften? Aus allen börsenno- 
tierten Aktiengesellschaften? Aus allen indexnotierten Aktiengesellschaf- 
ten? Oder aus allen publikationsfreudigen indexnotierten Aktiengesell- 
schaften? Für welche Klasse von Unternehmen, welchen Zeitraum und 
welche Fragestellungen beanspruchen die gewonnenen Erkenntnisse Gel- 
tung, und auf Grundlage welcher Überlegungen zur Übertragbarkeit? Wenn 
diese Fragen nicht reflektiert werden und Studien stattdessen mit der größt- 
möglichen Zahl leicht verfügbarer (Kapitalmarkt-) Daten durchgeführt 
werden, haben ihre Erkenntnisse oft nur eine sehr beschränkte Aussage- 
kraft. 

Deshalb gilt auch bei der Auswahl der Stichprobe das Prinzip „Klasse 
statt Masse“,°** denn die Stichprobengröße reduziert zwar den Einfluss von 
Zufallsschwankungen, erhöht aber nicht zwangsläufig die Übertragbarkeit 


260 Good/Hardin, Errors 2009, S. xi: “statistical software will no more make one a statisti- 
cian than a scalpel will turn one into a neurosurgeon. Allowing these tools to do our thinking 
is a sure recipe for disaster.”; Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 68: ““high-tech 
statistication’ [...] lend[s] an impressive air of sophistication but may be massively inappro- 
priate.” 

*6! Diekmann, Sozialforschung 2012, 187; Epstein/Martin in: Cane/Kritzer, Hdb Empirical 
2010, 901, 905: “even the best statistician cannot make lemonade without lemons.” 

62 Krämer, KZfSS Sonderheft 2004, 51 m.w.N., und auf 59: „Falsch verstandene klassi- 
sche Inferenzstatistik ist schlechter als gar keine Inferenzstatistik.“ 

28 Eindringlich Devers/Cannella u.a., J Mgmt 2007, 1016, 1041: “the perpetuation of a 
multitude of analytic tools that are not fully understood or justified, and their corresponding 
disparate results, presents a slippery slope that we strongly caution against.”; vgl. auch $ 3 
B.II.2.b) zum Selektionsfehler in Beobachtungsstudien. 

26% van Belle, Rules of Thumb 2008, 55: “The adage, ‘there is strength in numbers’ may be 
true in politics but less likely to be so in science. There is more strength in fewer but well- 
chosen numbers.”; gutes Bsp. bei Sedlmeier/Renkewitz, Forschungsmethoden 2008, 120. 
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der Daten — das kann nur der Auswahlprozess.’°° Dementsprechend viel 
Gewicht muss bei der Durchführung empirischer Studien auf die Planungs- 
phase gelegt werden, und genauso viel Aufmerksamkeit sollte der Rezipi- 
ent darauf verwenden, die Annahmen und Entscheidungen der Studienpla- 
nung zu hinterfragen, denn jede „Analysestrategie“ ist 


„mit eigenen Annahmen verbunden, die sich nicht immer direkt überprüfen lassen. Wich- 
tig ist vielmehr eine adäquate Auseinandersetzung mit diesen Annahmen und dem ent- 
scheidenden Selektionsprozess.‘”° 


III. Ohne Hypothese kein Ergebnis. 


Der Vorrang der Planung vor der Auswertung führt unmittelbar zum dritten 
Rezeptionsgrundsatz, der an verschiedenen Stellen schon vorweggenom- 
men wurde (z.B. oben bei Fn. 85 und Fn. 161). Er bezieht sich auf die 
schließende Statistik, die aber in der internationalen empirischen For- 
schung eine überragende Bedeutung hat und auch in Deutschland zuneh- 
mend relevant wird. 

Der Glaube an die statistische Allmacht (vgl. oben bei Fn. 251 und Fn. 
262 sowie unten bei Fn. 288) findet reichlich Bekräftigung durch die Leis- 
tungsfähigkeit moderner Computer. Sie nehmen jede denkbare Art von Da- 
ten, führen beliebige Berechnungen beliebig oft durch und geben (fast) im- 
mer ein Ergebnis aus. Die Verlockung ist deshalb groß, beliebige Daten zu 
sammeln und statistisch zu durchforsten, um Regelmäßigkeiten zu entde- 
cken (data mining). Die Statistik-Software benötigt keine Hypothese, um 
einen Mittelwertsunterschied und Signifikanzwert auszurechnen.”°” Doch 
gerade weil das so ist, kommt empirische Stichprobenforschung nicht ohne 
vorab definierte Hypothesen aus. Solche Hypothesen trennen erst die Spreu 
vom Weizen, erkundende von schließender Statistik, anekdotische Evidenz 
von empirischer Erkenntnis. 

Ein berühmtes Beispiel sind die Kalendereffekte am Aktienmarkt: ”* 
Man könnte unzählige mögliche Zusammenhänge untersuchen zwischen 
Tageszeit, Datum, Jahreszeit, Jahreszahl, usw. einerseits und dem Börsen- 
preis allgemein, in bestimmten Ländern, Branchen, Anfangsbuchstaben, 
usw. andererseits. Die Anzahl der denkbaren Kombinationen geht gegen 


°° van Belle, Rules of Thumb 2008, 56: “Sample size determines precision not accuracy. 
The selection process determines accuracy (or validity).” 

266 Legewie, KZfSS 2012, 123, 140. 

267 Mintken, VR 1992, 252, 253: „Es ist wenig sinnvoll, Analysen nur deswegen durchzu- 
führen, weil das benutzte Rechenprogramm sie erlaubt. Das führt zwar in der Regel zu einer 
beachtlichen Menge an Kennzahlen, Tabellen und Grafiken, jedoch ist der inhaltliche Ertrag 
zumeist gering.“; vgl. schon eben bei und in Fn. 260. 

2% Gemeint ist „die Erheblichkeit bestimmter zeitbedingter Muster im Kursverlauf, wie 
den Montagseffekt und den Januareffekt“, Benicke, ZGR 2004, 760, 766. 
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unendlich, und fiir jede zwanzigste ergibt die herrschende statistische Me- 
thodik ein signifikantes Ergebnis — selbst dann, wenn kein einziger Zusam- 
menhang zwischen Kalender und Börsenpreis besteht. Da überrascht es 
nicht, dass tatsächlich Kalendereffekte beobachtet werden, und darunter 
auch solche, die man plausiblerweise hätte erwarten können — etwa den be- 
rüchtigten Montagseffekt.”°” Man mag gute und plausible Erklärungen da- 
für finden, warum der Börsenpreis montags deutlich niedriger sein sollte 
als freitags. Ebenso gute Erklärungen fände man aber auch für einen höhe- 
ren Preis, oder einen Dienstags-, Mittwochs- oder sonst einen Effekt (vgl. 
oben Fn. 27). Untersucht man dagegen alle möglichen Kalendereffekte, 
verschwinden plötzlich die überzufälligen Regelmäßigkeiten; der ver- 
meintliche Montagseffekt ist nur Teil des statistischen Grundrauschens. °”? 
Ohne (oder mit nachträglich gebildeten) Hypothesen läuft jede empirische 
Erhebung Gefahr, Grundrauschen für bedeutungsvoll zu halten, weil es 
plausibel erscheint. Plausibilität ist aber gerade kein Kriterium für die Da- 
tenauswertung (vgl. oben bei Fn. 18), sonst bedürfte es der Datenauswer- 
tung gar nicht. 

Leider fällt es sehr schwer, behauptete Hypothesen darauf zu überprü- 
fen, ob sie bereits vor der Erhebung existierten (vgl. schon oben bei Fn. 
163). Wenn sich nicht klären lässt, ob die Hypothese vorab feststand, lässt 
sich allenfalls als Faustregel formulieren: Je weniger naheliegend eine Hy- 
pothese erscheint, desto gründlicher sollte sie aus vorherigen Erkenntnis- 
sen und Theorien hergeleitet sein.”’' Das entspricht auch juristischen Denk- 
gewohnheiten.*” Rezipienten empirischer Forschung sollten deshalb den 
Prozess (nicht das Ergebnis!) der Hypothesenbildung immer kritisch hin- 
terfragen. Wirklich abhelfen kann ,,verspateten“ Hypothesen letztlich nur 
die Replikation, denn Replikationsstudien gehen per Definition immer von 
einer Hypothese aus — nämlich dem Ergebnis der Ursprungsstudie. Lässt 
sich dann der erwartete Effekt erneut belegen, spricht einiges für seine 
Existenz. Leider werden aufgrund der oben dargelegten systematischen 
Verzerrung des Veröffentlichungsverfahrens (§ 2 A.VI.3.) praktisch nie rei- 
ne Replikationen veröffentlicht.” 


2% Triebe, NZZ 9. August 2010: „Der Montagseffekt besagt, dass sich die Aktienrendite 
vom Schlusskurs am Freitag bis zum Schlusskurs am folgenden Montag durchschnittlich 
schlechter entwickelt als im Rest der Woche.“ 

270 Sullivan/Timmermann/White, J Econometrics 2001, 249 m.w.N. 

71 Um Missverständnisse zu vermeiden: Wenn eine Hypothese vorab feststand, ist ganz 
egal, woher sie kam. Die vorliegende Faustregel begegnet nur der Unsicherheit, ob eine Hy- 
pothese vorab feststand. 

°? Engel, JITE 2010, 199, 201: “the more one deviates from what most other lawyers 
think is the appropriate way of solving the case, the stronger the arguments one needs.” 

23 Nickerson, Psy Meth 2000, 241, 283: “Experiments that are literal replications of previ- 
ously published experiments are very seldom published—I do not believe I have ever seen 
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IV. Ergebnis ist nicht die Signifikanz, sondern die Effektgröße. 


Die vorige Rezeptionsregel besagte unmittelbar nur, dass hypothesenfrei 
durchgeführte Signifikanztests nicht sinnvoll deutbar sind. Damit sollte 
aber nicht gesagt sein, dass der sinnvoll deutbare Signifikanztest auch 
schon das empirische „Ergebnis“ darstellt. Viele empirische Forscher, 
Schriftleiter und Gutachter hingegen verengen den Blick auf den Signifi- 
kanztest. Signifikanz kommt von lat. significantia, Bedeutung, ”’* also ist 
Signifikanz ein Maß für die Bedeutung einer Erkenntnis — so das weit ver- 
breitete Verständnis.” Ein Missverständnis, leider.”’° 

Obwohl es sich bei der Signifikanz „nie um eine Aussage über die Ef- 
fektgröße, die Relevanz des Ergebnisses oder des Unterschiedes“ han- 
delt,” werden substantiell bedeutsame Erkenntnisse oft als „signifikant“ 
bezeichnet. Das ist Folge eines Bedeutungswandels, den dieses Wort im 
zwanzigsten Jahrhundert erfahren hat, nachdem es in der Statistik bereits 
als Fachbegriff gebräuchlich war.” Die statistische Bedeutung des Wortes 
lässt sich leicht erfassen, wenn man erkennt, dass die lateinische Grund- 
form von significantia zusammengesetzt ist aus signum, Zeichen, und fa- 
cere, machen:*” Signifikanz ist ein Anzeichen dafür, dass ein Stichproben- 
effekt auch in der Grundgesamtheit existiert, nicht mehr und nicht weniger. 

Das wird daran deutlich, dass die meisten Nullhypothesen tatsächlich 
als Punkthypothesen der Art „Es gibt keinen Unterschied, der Effekt ist ex- 
akt null.“ (nil hypothesis) formuliert werden, dass aber zugleich zwei aus 


one.”; anders akzentuiert Dubben/Beck-Bornholdt, Fehlinformation 2011, 104: „Fremde Ex- 
perimente und Studien zu wiederholen und damit zu überprüfen, wird [.] von Wissenschaft- 
lern als langweilig empfunden und ist mit dem Verdacht verbunden, man habe keine eigenen 
erforschenswerten Ideen“. 

7 Dudenredaktion, Fremdwörterbuch 2000, 1229 („Signifikanz“); Köbler, Lateinisches 
Wb. 2009; Harper, Etymology 2014, Stichwort “significance”. 

275 Vickers, Understand Statistics 2010, 148: “perhaps the most typical approach to statis- 
tics”; pointiert Krämer, Denkste! 2011, 187: „Für viele ist ,Signifikanz‘ eine Art Adelstitel: 
wissenschaftlich untermauert, empirisch unangreifbar, jenseits allen Zweifels abgesichert, die 
TÜV-Plakette der modernen Datenhändler. Aber diese Assoziationskette signifikant = wichtig 
= richtig ist falsch.“ 

276 Ausf. Bortz/Döring, Forschungsmethoden 2006, 600; Sedlmeier/Renkewitz, For- 
schungsmethoden 2008, 782 f.; Ziliak/McCloskey, Statistical Significance 2008, passim; 
Seth/Carlson u.a. in: Bergh/Ketchen, Research Methodology 2009, 3; Ellis, Effect Sizes 
2010, 3; spezifisch juristisch Lempert, L Soc Inq 2009, 225; Zeisel/Kaye, Figures 1997 nen- 
nen das die “grossness fallacy”. 

277 Petersen/Goerg in: Towfigh/Petersen, Methoden 2010, 201, 226. 

278 Salsburg, Statistics 2001, 98: “The word was used in its late-nineteenth-century Eng- 
lish meaning, which is simply that the computation signified or showed something.” 

2” Dudenredaktion, Fremdwörterbuch 2000, 1229 (,,signifizieren“); Köbler, Lateinisches 
Wb. 2009; Harper, Etymology 2014, Stichwort “signify”. 


114 $ 2: Grundlegung einer pragmatischen Rezeptionslehre 


realen Daten gezogene Mittelwerte niemals exakt identisch sein werden. **° 
Deshalb „ist jede Nullhypothese letztlich chancenlos, wenn man die einge- 
setzten Stichproben genügend groß macht, d. h., Signifikanz ist letztlich 
eine Frage des Stichprobenumfanges.“”*' Umgekehrt formuliert: Insignifi- 
kanz bedeutet im Prinzip nur, dass die Stichprobe nicht hinreichend sicher 
erkennen lässt, ob der betrachtete Effekt ein positives oder negatives Vor- 
zeichen trägt,” und diese Unsicherheit kann ebenso darauf beruhen, dass 
die Stichprobe zu klein ist um das Vorzeichen zu bestimmen, wie darauf, 
dass der Effekt kein Vorzeichen hat, weil er nicht existiert (null ist). Die 
Rezeption von Signifikanzwerten muss deshalb die Stichprobengröße im 
Auge behalten: Kleine Stichproben können selbst Mammuteffekte als insi- 
gnifikant erscheinen lassen, große Stichproben dagegen können selbst mi- 
nimale Effekte bis zur Signifikanz aufblasen.** 

Diese Erkenntnisse verdeutlichen zweierlei: Zum einen, dass Hypothe- 
sen so präzise formuliert sein sollten wie möglich, weil andernfalls die Wi- 
derlegung der Nullhypothese geradezu unausweichlich ist und keine neue 
Erkenntnis bringt. Zum anderen, dass Signifikanz aufgrund ihrer Stichpro- 
benabhängigkeit nicht das (einzige) Kriterium sein kann, um einen Effekt 
in der Grundgesamtheit zu beurteilen.*** Wir erinnern uns: Könnten wir die 
gesamte Grundgesamtheit beobachten, könnten wir gleich die Effektgröße 
berechnen und bräuchten keine schließende Statistik. (In Vollerhebungen 
versteht sich die vorliegende Rezeptionsregel deshalb von selbst.) Schlie- 
Bende Statistik ist nur der notwendige Zwischenschritt, weil wir die 
Grundgesamtheit nicht vollständig beobachten können.” Deshalb ändert 
sich aber nicht gleich das Erkenntnisinteresse: Auch in einer Stichprobe- 
nerhebung ist die Stärke eines Effekts das eigentlich relevante Ergebnis. 
Während die Signifikanz je weniger aussagt desto größer die Stichprobe 


#0 Bortz/Döring, Forschungsmethoden 2006, 28, 600 sprechen von einer „reinen Fiktion“. 

81 Bortz/Döring, Forschungsmethoden 2006, 28, 600 ff.; „Mit anderen Worten, bei großen 
Stichproben sind selbst kleinste Abweichungen von der Ausgangshypothese schon ,signifi- 
kant‘, bei kleinen Stichproben dagegen kann man selbst grobe Verletzungen der Ausgangshy- 
pothese noch dem Zufall in die Schuhe schieben.“ (Krämer, Denkste! 2011, 190); vgl. auch 
Gorard, Brit J Sociol Edu 2006, 67, 71. 

#2 So Shadish/Cook/Campbell, Causal Inference 2002, 44, 52 m.w.N.; Abelson, Principled 
Argument 1995, 74: “the so-called acceptance of the null hypothesis merely signifies a reluc- 
tance to bet on the direction of the true mean difference.”; gleichbedeutend mit der Erläute- 
rung oben bei Fn. 159. 

283 Zu einem Beispiel, bei dem man durchaus zweifeln kann, ob die Signifikanz nicht nur 
Resultat einer sehr großen Stichprobe ist, unten $ 4 Fn. 589. 

*84 Rosenthal/DiMatteo, Ann Rev Psy 2001, 59, 63 (“Keeping Statistical Significance In 
Perspective”); Beck-Bornholdt/Dubben, Nature 1996, 730 weisen darauf hin, dass sich an- 
dernfalls mittels der Signifikanz sogar im simplen Dreischritt beweisen ließe, dass der Papst 
ein Außerirdischer ist. 

5 So auch Sedlmeier/Renkewitz, Forschungsmethoden 2008, 782. 
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ist, verhält es sich mit der Effektgröße genau umgekehrt: Mit zunehmender 
Stichprobengröße nähert sie sich ihrem wahren Wert in der Grundgesamt- 
heit, weil man ja einen größeren Teil dieser Grundgesamtheit überblickt. **° 
Während eine große Stichprobe mitunter nur deshalb signifikante Ergeb- 
nisse liefert, weil der hypothetische Null-Effekt nicht exakt null ist sondern 
minimal um null schwankt, wird ein Blick auf die Effektgröße diese 
Schwankung immer als das erkennen, was sie ist: minimal. 


V. Ein Bild sagt mehr als tausend Signifikanzen. 


Die fünfte Rezeptionsregel greift einen Themenkomplex auf, der bislang 
nicht angesprochen wurde, aber die vorangegangene Regel bestätigt und 
praktisch etwas handhabbarer macht. 

Mathematische Präzision hat bekanntlich enorme psychologische Über- 
zeugungskraft.**’ Deshalb wird empirischen Erkenntnissen oft umso mehr 
Glauben geschenkt, je komplizierter die zugrundeliegende Statistik ist und 
je feiner untergliedert die tabellarische Ergebnispräsentation — Quantifizie- 
rung gilt als Zeichen der Wissenschaftlichkeit: 


„Heute mehr denn je und vielleicht in den Vereinigten Staaten stärker als anderswo ist 
das Gefühl weit verbreitet, daß nur Zahlen Gewißheit geben. In dieser Beziehung 
herrscht tatsächlich eine Art volkstümlichen Aberglaubens vor [... der] gerade durch die 
Nüchternheit der statistischen Methoden — ein Zeichen ‚echter‘ Wissenschaft! — genährt 
wird. Aber selbst berufsmäßige Sozialwissenschaftler unterliegen ähnlichen Vorurteilen. 
Es gibt die Idee, daß Darstellungen sozialer Tatbestände unwissenschaftlich sind, wenn 
sie nicht von Zahlen gestützt werden. Die Folge ist ein ungezügelter ‚rage du 


nombre‘ 66288 


Diese „Zahlenwut“ lässt sich vor allem durch die westliche Geistesge- 
schichte und ihre Betonung analytischer Rationalität erklären.” Demge- 
genüber galten bildliche Darstellungen wissenschaftlicher Erkenntnisse 


°86 Deshalb gelten die vor allem in der Medizin praktizierten großangelegten RCT-Studien 
(randomized controlled trial) mit mehreren tausend Teilnehmern als “gold standard for esti- 
mating effects” (Ellis, Effect Sizes 2010, 116, 131 f.) und sind sogar Metastudien mit der gle- 
ichen zugrundeliegenden Stichprobengröße überlegen. 

287 Beller, Forschen lernen 2008, 77 f.; Krämer, Statistik 2011, 19: „Kleider machen Leute 
und Ziffern machen Zahlen, und je mehr Ziffern eine Zahl umhängen hat, desto mehr vertrau- 
en wir ihr auch.“; Neumann/Krieger, Clin L Rev 2003, 349, 382: “Precision can induce the il- 
lusion of completeness — the illusion that the precise number tells the whole story.” 

288 Nußbaum, AcP 1955, 453, 472 f.; Julian, J Royal Stat Soc D 1987, 487, 489: “many 
people will only accept a measurement as scientific if it can be made to several significant fi- 
gures on a scale.” 

28 Smith/Best u.a., Am Psy’st 2002, 749, 759: “With its logocentric bias, Western culture 
has traditionally favored the use of words, logic, and the formalisms of mathematics over the 
use of visual images, which have long been suspected of misleading the mind by appealing to 
the senses rather than to reason.” 
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von jeher als provisorische Krücken für statistische Analphabeten und wis- 
senschaftliche „Dilettanten“,”” obwohl sie der biologisch evolvierten 
Wahrnehmungsfähigkeit des Menschen womöglich besser entsprechen als 
Zahlen.””' Diese Einsicht konnte sich erst mit der Emanzipation der empiri- 
schen von den analytischen Wissenschaften allmählich durchsetzen.” 

Heute bevorzugen gerade die Disziplinen, die als wissenschaftlichste 
wahrgenommen werden, Grafiken gegenüber Tabellen. So ist in den ,,exak - 
ten Wissenschaften“ Chemie, Physik, Biologie und Medizin der flächen- 
mäßige Anteil, den Grafiken in Veröffentlichungen erhalten, mit durch- 
schnittlich 14 % fast fünf Mal so hoch wie der mit 3 % in den Disziplinen 
Soziologie, Volkswirtschaftslehre und Psychologie:”” 


„Je ‚härter‘ die Fakten, desto häufiger werden Grafiken und desto weniger häufig werden 
Signifikanztests verwendet. Das gilt sowohl für die Wissenschaften insgesamt als auch 
für die Teildisziplinen der Psychologie.“ ””* 


Während die als „hart“ wahrgenommenen Disziplinen bis zu zehn Mal 
mehr Platz für Grafiken als für Tabellen verwenden, gehen die „weichen“ 
Disziplinen genau umgekehrt vor.””° Das war nicht immer so; viele der frü- 
hen psychologischen Erkenntnisse wurden mittels grafischer Auswertung 
statt schließender Statistik gewonnen.”” Selbst einer der Gründungsväter 
der modernen Statistik nannte in seiner Vorlesung über „Geometrie der 
Statistik“ die grafische Auswertung „eine grundlegende Methode, um sta- 
tistisches Material zu sichten und auszuwerten“, erkannte aber auch schon 


den „Wettbewerb von Geometrie und Arithmetik als wissenschaftliche 


Werkzeuge, um physikalische und soziale Phänomene zu bewältigen“. ?” 


Diesen Wettbewerb gewann zunächst die Arithmetik, weil die ersten Com- 


°° So Luke Howard 1847, zit. in Wainer/Velleman, Ann Rev Psy 2001, 305, 306 und 308. 

®1 Julian, J Royal Stat Soc D 1987, 487, 488: “Human beings are excellent at examining 
patterns and pictures — evolution in the natural world has taken care of the training for that. 
They are very bad at doing mathematics. It was not an accident that geometry came before al- 
gebra.”; ahnl. Wainer/Velleman, Ann Rev Psy 2001, 305, 316 m.w.N. 

®2 Ausf. Wainer/Velleman, Ann Rev Psy 2001, 305, 306 ff. 

23 Smith/Best u.a., Am Psy’st 2002, 749, 753 unter Berufung auf Cleveland, Am Stat’n 
1984, 261, der die genauen Zahlen zwar nicht berichtet, sie aber vielleicht auf Nachfrage mit- 
geteilt hat; vgl. auch Epstein/Martin/Schneider, Vand L Rev 2006, 1811, 1817: “most scien- 
tists have ‘declared a war’ on tables — or, at least, have expressed a strong preference for 
graphical displays”. 

294 Sedimeier/Renkewitz, Forschungsmethoden 2008, 783. 

5 Smith/Best u.a., Am Psy’st 2002, 749, 755. 

6 Smith/Best u.a., Am Psy’st 2002, 749, 759: “Historically, many of psychology’s most 
enduring and best stabilized findings—ones that still decorate the pages of its textbooks— 
have been cast in the form of graphical displays, depicting relationships arrived at without the 
use of inferential statistics.”; vgl. auch Wainer/Velleman, Ann Rev Psy 2001, 305, 312. 

27 Karl Pearson, zit. nach Best/Smith/Stubbs, Behav Proc 2001, 155, 156 bzw. 162. 
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puter schließende Statistik schneller bewältigten, als sie Grafiken erstellen 
konnten.””® Dieses Ungleichgewicht hat sich mittlerweile überlebt,” so 
dass eine Überprüfung der überkommenen Praxis naheliegt. 

Die vermeintliche Präzision tabellierter Zahlenkolonnen hat nicht nur 
nichts mit der Exaktheit oder Härte einer empirischen Disziplin zu tun, 
sondern erschwert es mitunter sogar, „augen“fällige Unterschiede und Ten- 
denzen auszumachen.” Das wohl anschaulichste Beispiel dafür wurde 


(nach seinem Erfinder) als Anscombes Quartett bekannt:*°' 
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Illustration: Grafische Darstellung vier fiktiver Datensätze (eigene Abbildung) 


#8 Loftus, Behav Res Meth 1993, 250, 250 f.; Best/Smith/Stubbs, Behav Proc 2001, 155, 
156: “the period 1860-1890 has been called the “golden age of graphs’. Many of the inferen- 
tial statistics in use today were developed because of these early attempts to analyse data vis- 
ually.” 

°° Wainer/Velleman, Ann Rev Psy 2001, 305, 314 bezeichnen die auf heutigen Computern 
verfügbare bessere Software, größere Rechenleistung und größere Datenmenge als “the scien- 
tific triumvirate.” 

300 Smith/Best u.a., Am Psy’st 2002, 749, 753: “experimental research on human percep- 
tion suggests that tables are inferior to graphs for conveying trends in data” m.w.N. 

301 Anscombe, Am Stat’n 1973, 17; dazu auch Lawless/Robbennolt/Ulen, Methods 2010, 
294 f.; Epstein/Martin/Schneider, Vand L Rev 2006, 1811, 1845 f. 
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Die vier abgebildeten Datensätze folgen offensichtlich ganz unter- 
schiedlichen Gesetzmäßigkeiten,°” doch betrachtet man die herkömmli- 
chen statistischen Parameter, stellt man fest, dass jeder einzelne dieser vier 
Datensätze exakt folgende Kennwerte aufweist: 


N= 11 (Stichprobengröße) 
X = 9,000 (Mittelwert der unabhängigen Variable) 
Sx = 3,32 (Standardabweichung der unabhängigen Variable) 
Y = 7,500 (Mittelwert der abhängigen Variable) 
sy = 2,03 (Standardabweichung der abhängigen Variable) 
r = 0,816 _ (Korrelationskoeffizient) 
b = 0,500  (Regressionskoeffizient) 
SE = 0,118  (Standardfehler) 
p = 0,002  (Signifikanzwert) 
R?.a = 0,629  (adjustiertes Bestimmtheitsmaß) 
Fa) = 18,0 (Modelltest mit neun Freiheitsgraden) 


Illustration: Standardparameter der beschreibenden Statistik für die vier Datensätze?” 


Eine „blinde“ statistische Auswertung würde also zu dem Ergebnis 
kommen, dass in jedem der vier Datensätze eine Änderung der unabhängi- 
gen Variable um 1,000 zu einer gleichgerichteten Änderung der abhängi- 
gen Variable um 0,816 führt und dass in allen vier Datensätzen das gleiche 
lineare Abhängigkeitsverhältnis zwischen den beiden Variablen besteht 
(y= 0,5 x + 3).°% Dieses Ergebnis wäre nach allen Konventionen signifi- 
kant, also veröffentlichungsreif. 

Nicht wenige Forscher plädieren deshalb — vor allem seit Pionierarbei- 
ten über die erkundende Datenauswertung mittels grafischer Werkzeuge’ 
sowie empirischen Vergleichsstudien zur Wahrnehmung von Tabellen und 


32 Das Bild links unten stellt die Funktion y = 0,345x + 4, das Bild rechts unten die Kon- 
stante x = 8 dar, jeweils mit einem Ausreißer. Im Bild rechts oben folgen alle Datenpunkte ei- 
ner Funktion, die schon Anscombe, Am Stat’n 1973, 17, 19 als “possibly quadratic” bezeich- 
nete: y = -0,127x? + 2,781x - 6. 

3 Rohdaten und Parameter nach Anscombe, Am Stat’n 1973, 17, 19 f. 

304 Diese vermeintlich überraschenden Übereinstimmungen sind eine praktische Konse- 
quenz der oben (nach Fn. 101) beschriebenen statistischen „Abstraktion“ und bestätigen van 
Belle, Rules of Thumb 2008, 198: “Always graph the data [...] There are any number of hor- 
ror stories associated with ungraphed statistical analyses.”; Lempert, J Emp L Stud 2010, 907, 
921: “Averages, even if accurately assessed, can hide lots of variance.” 

305 Anscombe, Am Stat’n 1973, 17, Wainer/Thissen, Ann Rev Psy 1981, 191, Krohn, Biol 
Phil 1991, 181 und Wainer/Velleman, Ann Rev Psy 2001, 305, 313 ff. zitieren als Ausgangs- 
punkt die Arbeiten tiber “exploratory data analysis” von John Tukey — dem ,,Picasso der Sta- 
tistik“, so Salsburg, Statistics 2001, 229 (Kap. 21). 
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Grafiken’ — für einen vermehrten Einsatz von Grafiken als Ergänzung 
oder gar als völligen Ersatz für Auswertungen durch schließende Statistik 
(visual inference).”” Neuere Studien verwenden bisweilen fast ausschließ- 
lich Grafiken, um die Ergebnisse fortgeschrittener statistischer Verfahren 
anschaulich zu vermitteln.” 

Auch der Rezipient empirischer Forschung sollte deshalb nicht davor 
zurückschrecken, grafische Illustrationen aktiv nachzufragen und zu inter- 
pretieren.’” Ein wohlbekanntes Sprichwort unter empirischen Forschern 
besagt, dass ein Ergebnis, das sich nicht in einer Grafik darstellen lässt, 
kein echtes Ergebnis sein kann.*'® Das steht vollkommen in Einklang mit 
der vorigen Rezeptionsregel, denn im Gegensatz zur Signifikanz lässt sich 
die Effektgröße immer schon aus der grafischen Darstellung ablesen, näm- 
lich als die mit bloßem Auge erkennbare Differenz zwischen zwei Säulen 
oder Linien.’ 

Gleichwohl bergen natürlich auch grafische Darstellungen ein gewisses 
Irreführungspotential, das vor allem in pseudo- und populärwissenschaftli- 
chen Grafikvarianten (pop charts) genutzt wird.’'” Dass grafische Darstel- 
lungen die formale Statistik vollständig entbehrlich machen, lässt sich da- 
her mit guten Gründen bezweifeln.°'’ 


306 Gelman/Pasarica/Dodhia, Am Stat’n 2002, 121: “The clearest conclusion from most of 
these studies is that tables are best suited for looking up specific information, and graphs are 
better for perceiving trends and making comparisons and predictions”; vgl. auch 
Epstein/Martin/Schneider, Vand L Rev 2006, 1811, 1822 bei Fn. 26. 

>77 Wainer/Thissen, Ann Rev Psy 1981, 191; Loftus, Behav Res Meth 1993, 250; Cum- 
ming, Teach Stat 2007, 89; Epstein/Martin/Schneider, Vand L Rev 2006, 1811, 1838 ff. und 
Epstein/Martin/Boyd, Vand L Rev 2007, 801, 804 f.; philos. Krohn, Biol Phil 1991, 181. 

308 Musterbeispiel Ho/Rubin, Ann Rev L Soc Sci 2011, 17, die ihre gesamte statistische 
Auswertung in 19 Graphen wiedergeben — bei 18 Seiten Gesamtumfang — und nur für be- 
schreibende Statistik zwei Tabellen vorhalten. 

30 Sehr hilfreiche Orientierungsregeln geben Cumming/Finch, Am Psy’st 2005, 170. 

310 Ähnl. Senn, Significance 2007, 79: ““If you need statistics to prove it, I don’t believe it’ 
is a remark you get used to hearing as a medical statistician”; zust. Gorard, Brit J Sociol Edu 
2006, 67, 76 m.w.N.; a.A. Julian, J Royal Stat Soc D 1987, 487, 490. 

31 Croson, U Ill L Rev 2002, 921, 941: “apply the ‘inter-ocular trauma test’ [...]; the dif- 
ferences between treatments should jump up and hit the reader in the eye.”; nach 
Epstein/Martin/Schneider, Vand L Rev 2006, 1811, 1835 ff. machen gute Grafiken auch da- 
durch Signifikanztests entbehrlich, dass sie Wertestreuungen mit abbilden. 

312 Bsp. bei Krämer, Statistik 2011, 41 ff. (Kap. 3), 113 ff. (Kap. 9); Epstein/Martin/ 
Schneider, Vand L Rev 2006, 1811, insb. 1823 Fn. 27. 

33 Abelson, Principled Argument 1995, 77: “it is easy to overreact to appearances in 
graphs.”; Salsburg, Statistics 2001, 96: “Those things that seem to the eye to be similar [...] 
are often drastically different when examined carefully with statistical tools developed for this 
purpose.”; Fisch, Behav Proc 2001, 137: “Errors in trend detection illustrate the liabilities of 
using visual inspection as the sole means by which to analyze behavioral data.” 
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VI. Statistik darf keine Magie, muss aber MAGIC sein. 


Mehr noch als die Illusion der Präzision ist es vor allem die Unübersicht- 
lichkeit der statistischen Methoden (vgl. oben vor Fn. 123), die empirische 
Studien bisweilen wie Zahlenzauberei erscheinen lässt.°'* Selbst hauptbe- 
ruflichen Statistikern erscheinen neue Methoden mitunter so märchenhaft, 
dass für deren Benennung der Baron von Münchhausen Pate steht,*'> oder 
dass das dritte der drei Clarkeschen Gesetze auf den Plan gerufen wird: 


„Jede hinreichend fortschrittliche Technologie ist von Magie nicht zu unterscheiden.“ ?'° 


Diese Metaphern sind selbstverständlich scherzhaft gemeint,*'’ doch das 
englische Wort magic gewinnt einen durchaus ernsten Bezug zur Statistik, 
wenn man es als Akronym für fünf wichtige Faktoren versteht, denen die 
rhetorische Überzeugungskraft empirischer Argumente entspringt:?'® 


1. Ausmaß der beobachteten Unterschiede (Magnitude), gemessen nicht 
an der Signifikanz, sondern an der Effektgröße,?'” 

2. Klarheit der Darstellung (Articulation), hinsichtlich der Hauptaussa- 
gen (ticks) und ihrer Geltungsbedingungen und -grenzen (buts),*”° 

3. Allgemeinheit der Erkenntnis (Generality), insbesondere aufgrund ih- 
rer Bewährung in Variationen innerhalb oder zwischen Studien, °?' 


314 Sedlmeier/Renkewitz, Forschungsmethoden 2008, 781: „Der Signifikanztest [...] hat in 
manchen Bereichen der Wissenschaft fast schon magischen Status erreicht.“; Vickers, Under- 
stand Statistics 2010, 88: “many non-statisticians seem to think that [multivariable regression] 
has near magical properties.” 

315 Ich meine die inzwischen anerkannte Methode von Efron, Ann Stat 1979, 1, Parameter 
einer Grundgesamtheit mittels Stichproben zu schätzen, die aus einer Stichprobe gezogen 
wurden — das bootstrapping, benannt nach der Geschichte, wie Münchhausen sich am eige- 
nen Schopf (engl.: an den eigenen Stiefelschlaufen, bootstraps) aus dem Moor zog; Einfüh- 
rung bei Sedlmeier/Renkewitz, Forschungsmethoden 2008, 597 ff. (Kap. 19.1). 

316 Etwa Professor Sir David Hendry in einem Vortrag über “Empirical Model Discovery 
and Theory Evaluation” am 25.7.2011 in Jena; die Clarkeschen Gesetze sind nach dem Vorre- 
iter der literarischen Wissenschaftsfantastik Arthur Clarke benannt, der sie 1973 aufstellte; 
Nachweise in Prucher, Science Fiction 2007, 22. 

317 Ironisch auch Wainer, Psy Meth 1999, 250, 255: “The magic of statistics cannot create 
information when there is none.”; Lempert, J Emp L Stud 2010, 907, 909: “empirical studies 
are almost never a magic bullet.” 

318 Zum Folgenden Sedlmeier/Renkewitz, Forschungsmethoden 2008, 780 f. m. Verw. auf 
Abelson, Principled Argument 1995, 11 ff. 

319 Abelson, Principled Argument 1995, 39 ff. (Kap. 3), auf 47 ff. mit dem Konzept einer 
causal efficacy. 

32 Näher Abelson, Principled Argument 1995, 104 ff. (Kap. 6), der die Begriffe prägte. 

*! Abelson, Principled Argument 1995, 132 ff. (Kap. 7). 
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4. Originalität der Erkenntnis (Interestingness), insbesondere aufgrund 
ihrer praktischen Bedeutung oder überraschenden Gewinnung,” und 

5. Glaubwürdigkeit der Erkenntnis (Credibility), abhängig von den ein- 
gesetzten Methoden einerseits und der Kohärenz der resultierenden Theo- 
rie andererseits.’ 


Diese fünf Komponenten der Überzeugungskraft, von denen sich drei 
auf die Methoden beziehen und die beiden letzten auf den Inhalt des damit 
geführten Arguments, sind fast alle schon an anderer Stelle dieser Arbeit 
zur Sprache gekommen: Das Ausmaß (M) oben unter IV., die Allgemein- 
heit (G) unter dem Stichwort der „äußeren Gültigkeit“ oben bei Fn. 44 so- 
wie gleich in § 3 A.III., die Glaubwürdigkeit (C) hinsichtlich der Methoden 
unter dem Stichwort der „inneren Gültigkeit“ oben bei Fn. 45 sowie gleich 
in § 3 A.II.””* Das Klarheitskriterium (A) war bereits oben nach Fn. 283 in 
der Forderung nach präzisen Hypothesen angedeutet: Je präziser eine em- 
pirische Behauptung formuliert und eingegrenzt ist, desto leichter ist sie 
überprüf- und kritisierbar (sie ist „empirisch gehaltvoller“) und desto be- 
deutsamer ist die Tatsache, dass sie bisher nicht widerlegt wurde.°” Die 
ersten drei und der letzte Buchstabe des MAGIC-Akronyms fassen also vor 
allem die bereits erörterten Rezeptionskriterien zusammen. Neu ist demge- 
genüber das Kriterium der Originalität (I), das das Augenmerk wiederum 
auf die rhetorische Komponente empirischer Forschung lenkt und die An- 
schlussfähigkeit der juristischen Rezeption bekräftigt. 

Insgesamt ist das MAGIC-Akronym also gut geeignet, die Rezeption 
empirischer Forschung anzuleiten und pragmatisch zu strukturieren. Dass 
eine bestimmte Studie einem der fünf Kriterien nicht genügt, ist sicher kein 
Ausschlusskriterium,**° kann aber den Rezipienten dafür sensibilisieren, 
dass die Überzeugungskraft der mit ihr gewonnenen Erkenntnisse gemin- 


32 Abelson, Principled Argument 1995, 156 ff. (Kap. 8): “If a claim is so blah that no one 
cares to read or talk about it, the chances are small that it will enter the lore of a field —much 
less stimulate further investigation.” 

*°3 Abelson, Principled Argument 1995, 170 ff. (Kap. 9); nach Sedlmeier/Renkewitz, 
Forschungsmethoden 2008, 781 auch bezogen auf glaubwiirdige Hypothesenherleitung (dazu 
oben bei Fn. 271); aus juristischer Sicht Ho/Rubin, Ann Rev L Soc Sci 2011, 17, 28: “Credi- 
bility hence depends on deep, substantive knowledge of the legal system being examined.” 

324 Abelson, Principled Argument 1995, 11 Fn. 5 sieht seine MAGIC sogar als Alternative 
zur Gültigkeitenlehre. 

335 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 30; Bortz/Döring, Forschungs- 
methoden 2006, 4 ff., vgl. auch Gorard, Brit J Sociol Edu 2006, 67, 76: “Clarity [...] exposes 
our judgements to criticism [...] Transparency does not, in itself, make a conclusion true or 
even believable, but it forces the analyst to admit the subjectivity of their analysis and allows 
others to follow their logic as far as it leads them.” 

*°6 Abelson, Principled Argument 1995, 170 selbst postuliert “the rule of two criticisms” 
mit Erläuterung in Fn. 1. 
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dert sein dürfte. Umgekehrt garantiert aber auch die beste MAGIC-Umset- 
zung nicht die Überzeugungskraft der Studienerkenntnisse, denn Einzelstu- 
dien sind immer fehlerbehaftet. Das ist Gegenstand der siebten und letzten 
Rezeptionsregel. 


VII. Synthese vor Primärstudien, Forschungsauswertung vor -bericht. 


Die mittleren fünf Rezeptionsregeln betrafen im Wesentlichen die Rezepti- 
on einzelner Primärstudien. Einzelfälle sind das tägliche Brot der Juristen- 
zunft. Schon in der juristischen Ausbildung ist der Fall die Standardein- 
heit, an der Wissen vermittelt und Erkenntnis gewonnen wird. Fälle sind 
anschaulich und leicht verdaulich und schon die Mutter der Jurisprudenz, 
die antike Rhetorik, kannte zahlreiche Stilmittel (Allegorien, Metonymien, 
Synekdochen, usw.) zur Veranschaulichung abstrakter Sachverhalte mittels 
lebensnaher Beispiele. „Juristen erläutern ihr Thema gerne anhand von 
Beispielen“, deshalb überrascht es nicht weiter, wenn Juristen auch bei 
der Rezeption empirischer Forschung oft besonderen Wert auf anschauli- 
che und plausible Einzelstudien legen.*** Dagegen ist zunächst auch nichts 
einzuwenden, denn empirische Forschung orientiert sich nicht zuletzt am 
Ideal des Geschichtenerzählers (vgl. oben bei Fn. 131), und ihre rhetori- 
sche Uberzeugungskraft — das hat die vorige Rezeptionsregel ergeben — 
hängt maßgeblich von der Originalität ihrer Aussagen ab (MAGIC). 
Zugleich beruht ihre rhetorische Überzeugungskraft aber auf Übertrag- 
barkeit (MAGIC), die sich an einer einzelnen Studie niemals ablesen 
lässt.” Einzelne Studien sind zwangsläufig mit Unsicherheit behaftet und 
die Ergebnisse selbst der besten Studie können schlicht falsch sein.**° Zu- 
mal oft zweifelhafte Kriterien verwendet werden, um die „besten“ Studien 
zu identifizieren — etwa die Plausibilität der Ergebnisse (die letztlich im- 
mer die herrschende Weltsicht gegenüber neuen Erkenntnissen bevorzugt, 
wie in dem in $ 4 vor Fn. 391 dargestellten Beispiel) oder die Angabe, wie 
oft eine Studie schon zitiert wurde (was wiederum vor allem die Plausibili- 
tät der Ergebnisse widerspiegelt). Der einzige Weg, gute Studien auszuma- 
chen - also solche, deren Fehlerwahrscheinlichkeit möglichst gering ist —, 


327 Fleischer in: Wank u.a., FS Wiedemann 2002, 827, 828. 

328 Fleischer, ZGR 2008, 185, 187 f. m.w.N. kritisiert das als Überbetonung von legal nar- 
ratives; als Beispiel mag Bainbridge, Vand L Rev 2002, 1 dienen, der sich durchweg (12 f., 
17, 22, 30, 39) auf ein “classic experiment” von 1932 stützt, nachdem zum gleichen Thema 
schon hunderte weiterer Studien durchgeführt wurden. 

32 So auch Fleischer, ZGR 2008, 185, 188 m.w.N.: „es bedarf vielmehr zusätzlicher Bele- 
ge, um von einer Einzelfallanalyse zu einer statistisch oder empirisch gehaltvollen Ge- 
samtaussage zu gelangen. Fehlen sie, bleiben alle Schlussfolgerungen Pseudo-Diagnostik.“ 

30 Abelson, Principled Argument 1995, 149: “One might say that isolated claims are not 
robust.” 
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ist ein Blick auf die konkrete Durchführung und die Auswertungsmetho- 
den. Und selbst dann lässt der Veröffentlichungsprozess (oben A.VI.) 
Zweifel daran, ob nicht zahlreiche ebenso gute Studien, die das Gegenteil 
belegen, unveröffentlicht geblieben sind.’ 

Bildlich gesprochen lässt sich das vielleicht so auf den Punkt bringen: 
Ein Jurist, der empirische Forschung aus einer einzelnen — noch so gut ver- 
öffentlichten, noch so viel zitierten und noch so plausiblen — Primärstudie 
rezipiert, ist wie ein Sozialwissenschaftler, der den aktuellen Rechtsstand 
aus einem viel beachteten Urteil in der NJW herleitet. Wo das hinführt, 
zeigt der hunderttausendfach als „Muster-Disclaimer“ im Internet verbrei- 
tete Sinnspruch über die Verantwortung für verlinkte Webseiten,” der In- 
ternetseitenbetreiber seit Jahren in der trügerischen Sicherheit wiegt, für 
die Inhalte verlinkter Seiten nicht verantwortlich zu sein, solange sie sich 
nur deutlich von den verlinkten Inhalten „distanzieren“ und ausdrücklich 
ihre Haftung ausschließen.” Mit dem Stand der Rechtsentwicklung hat 
das nichts zu tun.*** Freilich: Ein Urteil mag das einzige sein und schon 
deshalb den Rechtsstand tatsächlich abbilden. Es mag das bestdurchdachte 
sein und deshalb zeitlosen Wert für die Rechtsfindung gewinnen. Und doch 
beruht es mit beträchtlicher Wahrscheinlichkeit mehr auf den zufälligen 
Besonderheiten des Einzelfalls als auf einer allgemeingültigen Schöpfung 
rechtlicher Prinzipien. 

Nicht anders verhält es sich mit empirischen Studien: „Eine Studie ist 
nicht viel mehr als keine Studie, und die erste Studie zu einem neuen Ver- 
fahren unterliegt in aller Regel dem ,Optimismus-Bias‘“.**° Keine einzelne 
Studie kann die „großen Fragen“ schlüssig beantworten,” deshalb lebt em- 
pirische Forschung von der Kumulation: „Eine einzelne Untersuchung ist 


31 Krämer, Denkste! 2011, 194: „Wir lesen nicht, wie viele andere Studien und Stichpro- 
ben ohne signifikante Resultate es außerdem gegeben hat [...] und ehe wir das nicht wissen, 
können wir auch die ,Signifikanz‘ der selektierten Resultate, die uns letztendlich dann errei- 
chen, nicht ermessen.“ 

332 In der frühen Fassung einer von mir selbst betriebenen Website lautete dieser Disclai- 
mer: „Laut Urteil des Landgerichts Hamburg vom 12.5.1998 (AZ: 312 O 85/98) müssen In- 
halte verlinkter Seiten mitverantwortet werden, wenn der Betreiber sich nicht ausdrücklich 
von den externen Inhalten distanziert.“ 

33 Der in der vorigen Fn. zitierte Disclaimer fuhr fort: „Der Autor [...] distanziert sich da- 
her ausdrücklich von jeglichen Seiten, auf die hier durch externe Links verwiesen wird. Er 
übernimmt keine Verantwortung für die Inhalte hier verlinkter Seiten und kann nicht für 
Schäden gleich welcher Art haftbar gemacht werden, die durch das Besuchen der hier verlink- 
ten Seiten entstehen.“ 

34 Prägnant schon Höcker, Rechtsirrtiimer 2007, 141 f. 

335 Raspe, GesR 2011, 449, 453. 

336 Neumann/Krieger, Clin L Rev 2003, 349, 386: “empiricism cannot answer — and noth- 
ing can answer — the big questions”; Lawless/Robbennolt/Ulen, Methods 2010, 47: “no indi- 
vidual study will be dispositive of a given research question.”; Lempert (§ 2 Fn. 317). 
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günstigenfalls ein Mosaikstein. Erst viele Mosaiksteine formen ein Ge- 
samtbild.“’” Erkenntnisfortschritt entsteht immer erst aus einer Synthese 
umfangreicher vorangegangener Forschung,” ebenso wie umgekehrt das 
Vorliegen einer Synthese darauf hinweist, dass ein Forschungsgebiet eine 
gewisse Maturität erreicht hat.” Diese Maturität bemisst sich vor allem an 
der Zahl durchgeführter Replikationen. Replikationen sind die sicherste 
Gewähr, die der empirische Forschungsprozess gegen Fehlurteile bietet 
(oben bei Fn. 194 und vor Fn. 273), daher sollten die Ergebnisse nicht re- 
plizierter Studien stets skeptisch behandelt werden.’ Radikale Empiriker 
empfehlen sogar, die Ergebnisse einzelner Primärstudien niemals zu deuten 
— sondern lediglich so detailliert wie möglich zu berichten — denn Deutung 
sei erst möglich, wenn das Datenmaterial für eine Forschungssynthese aus- 
reiche.**! Die überwiegende Ansicht ist weniger restriktiv, aber ebenso 
deutlich: „Wenn Ergebnisse aus mehreren vergleichbaren Studien vorlie- 
gen, sind die zusammengefassten Schätzungen immer den Einzelschätzun - 
gen [...] vorzuziehen.“ Man wird also keinen ernsthaften empirischen 
Sozialforscher finden, der sich lieber auf eine solide durchgeführte Primär- 
studie stützt als auf eine solide durchgeführte Forschungssynthese.°*’ Tref- 
fend wurde dieses Spannungsverhältnis zwischen Anschaulichkeit und Ag- 
gregation so zusammengefasst: 


„Systematische Informationsgewinnung führt dazu, dass vorwiegend Fälle ausgewertet 
werden, die ganz gewöhnlich sind und keine Besonderheiten aufweisen. Wahrnehmungen 
von Praktikern scheinen dagegen dominiert von ungewöhnlichen Einzelfällen, die dann 


37 Diekmann, Sozialforschung 2012, 70; anschaulich spricht Stanovich, Psychology 2012, 
vom “connectivity principle” (124 ff.) und vom “principle of converging evidence” (128 ff.). 

38 Allen/Preiss, J Soc Behav Pers 1993, 9 zur “necessary and symbiotic relationship bet- 
ween meta-analysis and replication research”; Nickerson, Psy Meth 2000, 241, 291: “nothing 
of importance in psychology has ever been decided on the basis of the outcome of a single 
statistical significance test. Psychological knowledge is acquired, as is knowledge in other 
fields, as a consequence of the cumulative effect of many experiments and nonexperimental 
[sic] observations as well. It is the preponderance of evidence gathered from many sources 
and over an extended period of time that determines the degree of credibility”. 

3° Vgl. etwa Kozlowski/Ilgen, Psy Sci Publ Interest 2006, 77, 79. 

34 Allen/Preiss, J Soc Behav Pers 1993, 9, “Scientific knowledge comes from replication. 
Nothing within the scientific community is, or should be, accepted until that finding becomes 
verified via multiple replications.”; Abelson, Principled Argument 1995, 11: “Single Studies 
Are Not Definitive” und 77: “Research conclusions arise not from single studies alone, but 
from cumulative replication.”; Diekmann, KZfSS Sonderheft 2004, 8, 27 ff. fordert eine „Re- 
plikationskultur“. 

#41 Nickerson, Psy Meth 2000, 241, 288 f. m.w.N. 

32 Sedimeier/Renkewitz, Forschungsmethoden 2008, 778; Lempert, J Emp L Stud 2010, 
907, 925: “Do not rest policy change or analysis on a single study, no matter how good it is.” 

38 Vorausgesetzt, die Einzelstudie ist in der Synthese enthalten, sonst entscheidet die 
Stichprobengröße (vgl. Fn. 286). 
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in rechtspolitischen Diskussionen ein überdimensionales Gewicht bekommen. Schon die 
Juristenausbildung ist ja an ‚interessanten‘ Fällen ausgerichtet, die kein richtiges Bild ab - 
geben von der täglichen Praxis in juristischen Berufen. Ähnlich verhalten sich alle Prak - 
tiker, die über ihre Arbeit berichten.‘““*** 


Um diesen Gefahren zu entgehen, sollte der juristische Rezipient bei der 
Berücksichtigung empirischer Forschung immer Synthesen vor Primärfor- 
schung stellen und zuallererst gezielt nach Forschungssynthesen suchen. 
Nicht umsonst heißt es in der evidenzbasierten Medizin: „Originalstudien 
zu durchforsten, wo es gute aktuelle systematische Übersichten oder noch 
kompaktere kritische Aufbereitungen [...] gibt, kann man [...] als Zeitver- 
schwendung einstufen.“ Das schließt die Darstellung illustrativer Einzel- 
studien nicht aus,**° solange sie das bleiben: illustrativ, nicht entschei- 
dungstragend. 

Der zweite Teil des Grundsatzes, der die beiden Hauptformen der For- 
schungssynthese ihrerseits in eine Rangordnung stellt, wird nicht ganz so 
einhellige Zustimmung finden. Schließlich ist nicht zu leugnen, dass die 
stärker subjektive Einfärbung des Forschungsberichts einige substantielle 
Vorteile mit sich bringt (dazu oben $ 2 A.VII.1.). Ebenso wenig ist zu leug- 
nen, dass auch die Forschungsauswertung subjektive Entscheidungen er- 
fordert, die nicht nur offengelegt, sondern auch reflektiert werden müssen, 
damit Metastudien nicht die gleichen Mängel aufweisen wie viele Primär- 
studien — und allgemein jeder unreflektiert mechanische Einsatz statisti- 
scher Methoden.**’ Soweit ein Rezipient allerdings den Erkenntnisstand zu 
einer bestimmten Frage in Erfahrung bringen möchte und weniger an der 
wissenschaftshistorischen Entwicklung dieser Frage interessiert ist, sollte 
er die Forschungsauswertung stets gegenüber einem auf gleichem Niveau 
verfassten Forschungsbericht vorziehen (vgl. schon oben § 2 A.VII.2.c). 
Zu diesem Schluss kam auch die evidenzbasierte Medizin, in deren fünf- 
stufiger Erkenntnishierarchie (levels of evidence) systematische For- 
schungsauswertungen die Spitze einnehmen." Nicht umsonst konzentriert 


*4 Gessner in: Plett/Ziegert, Empirische Rechtsforschung 1984, 69, 81 = Gessner, SozW 
1984, 480, 484 f.; ähnl. Heldrich, AcP 1986, 74, 108: „Dabei werden die spektakulären Fälle 
mit atypischen Sachverhalten deutlich bevorzugt. Die Jurisprudenz des täglichen Lebens fin- 
det in der veröffentlichten Rechtsprechung kaum ihren Niederschlag.“ 

35 Timmer, DÄBI 2012, A 1418, 1420; vgl. auch Howick/Chalmers u.a., OCEBM Levels 
2011: “As always, a systematic review is generally better than an individual study.” 

6 Engel, JITE 2010, 199, 202: “The facts that an experimental design has been colourful, 
that it resonates well with the policy problem at hand, that the key message is casy to grasp, 
all have to be factored in, and for good reason.” 

7 Ellis, Effect Sizes 2010, 116: “Although meta-analysis has an aura of objectivity about 
it, in practice it is riddled with judgment calls. [...] Unfortunately, many meta-analyses are 
done mechanically, with little attention given to these issues.” 

348 Howick/Chalmers u.a., OCEBM Levels 2011. 
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sich die evidenzbasierte Medizin seit ihren Anfangen vor allem auf die Me- 
tastudien,*” die ein internationales Forschernetzwerk (Cochrane Collabo- 
ration) systematisch erarbeitet und regelmäßig aktualisiert.*°° 

Auch die evidenzbasierte Jurisprudenz muss letztlich auf der in der 
Überschrift angedeuteten Erkenntnishierarchie beruhen: Das beste Abbild 
des Erkenntnisstands beinhalten Forschungsauswertungen, danach kom- 
men Forschungsberichte und erst in letzter Linie, wenn keine der beiden 
Formen der Forschungssynthese aufzufinden ist, sollte sich ein Rezipient 
unmittelbar auf Primärforschung stützen. °°' 


C. Weitere Literatur 


Wie eingangs (vor A.) erwähnt, habe ich in den bisherigen Ausführungen 
auf Fußnoten möglichst verzichtet, um die Darstellung der gängigen For- 
schungsmethodik lesbar zu halten und nicht mit Nachweisen zu überfrach - 
ten. Zum Abschluss gehe ich daher auf weiterführende Lehrliteratur ein. 

Eiligen Lesern sei ein kurzes, an Juristen gerichtetes Lehrbuchkapitel 
über „empirische Methoden“ nahegelegt, das der Jurist Petersen gemein- 
sam mit dem Wirtschaftswissenschaftler Goerg verfasst hat.’ Auf vierzig 
leicht lesbaren Seiten mit anschaulichen Beispielen werden viele Schlüs- 
selbegriffe erläutert, deren Systematik aber in der Kürze der Darstellung 
kaum zu erfassen ist. Ausführlichere Darstellungen finden sich in Lehrbü- 
chern zur empirischen Methodik, von denen einige besonders empfehlens- 
wert sind. Dabei stütze ich mich nicht auf eine systematische Durchsicht 
der gesamten Lehrbuchliteratur, sondern kann nur eine subjektiv gefärbte 
Auswahl derjenigen Bücher vorstellen, die ich selbst als juristischer Rezi- 
pient schätzen gelernt habe. Leser sind ausdrücklich eingeladen, weitere 
Lehrbücher aufzustöbern und zu verwenden, denn echtes Verständnis kann 
immer erst aus der Vervielfachung der Blickwinkel entstehen. 

Im vorangegangenen Abschnitt habe ich vor allem sieben Lehrbücher 
systematisch ausgewertet — zwei große, ein mittleres und zwei kleine auf 
Deutsch sowie zwei weitere auf Englisch: 

Das erste englische Lehrbuch, eine interdisziplinäre Gemeinschaftsar- 
beit des Juristen Lawless mit der Psychologin Robbennolt und dem Ökono- 


3 Feinstein/Horwitz, Am J Med 1997, 529, 530: “almost exclusive concentration on the 
‘gold standard’ of randomized trials and meta-analyses”. 

*° Dazu Bilger in: Comberg/Klimm, Allgemeinmedizin 2004, 74, 75; ausf. Higgins/ 
Green, Cochrane 2011. 

5! Das ist beispielsweise unten in § 4 C.III. der Fall, für die Beantwortung der Frage, ob 
Gruppen die Entscheidungsfindung entschleunigen. 

#52 Petersen/Goerg in: Towfigh/Petersen, Methoden 2010, 201. 


C. Weitere Literatur 127 


men Ulen, ist zugleich das bislang einzige Lehrbuch über „Empirische Me- 
thoden im Recht“. Es wendet sich an Rezipienten wie Produzenten glei- 
chermaßen und leitet anschaulich Schritt für Schritt durch den Forschungs - 
ablauf. Kehrseite dieser narrativen Ausrichtung ist allerdings ein geringe- 
res Maß an methodischer Systematisierung und Reflexion. Dafür endet je- 
des Kapitel mit Übungsaufgaben und das Buch mit einem Glossar. 

Das große Lehrbuch von Bortz (mittlerweile verstorben) und Döring°* 
wendet sich an alle „Human- und Sozialwissenschaftler“ und folgt im Auf- 
bau dem typischen Forschungsablauf. Es ist ein klassisch gehaltenes Stan- 
dardwerk, das Konzepte klar und anschaulich erläutert — Glossar inklusive 
— und sich eng an die herrschende Methodik anlehnt, ohne ihre Mängel zu 
verschweigen. 

Das große Lehrbuch von Sedlmeier und Renkewitz”” richtet sich an 
Psychologen und schenkt dem Forschungsablauf als solchem wenig Beach- 
tung. Dafür legt es viel Wert auf Konzepte — das Buch beginnt mit Wissen- 
schaftstheorie und endet mit einer Methodenreflexion — und vermittelt so- 
gar die Grundzüge sehr moderner Auswertungsverfahren wie bootstrap- 
ping und bayesianischer Statistik. 

Das mittelgroße Lehrbuch von Diekmann,’ das schon in der 23. Auf- 
lage vorliegt, ist als „Enzyklopädie“ bezeichnet, aber als Taschenbuch ge- 
druckt. Und wie ein solches liest es sich, dank seiner flüssigen Prosa und 
zahlreicher unterhaltsamer Anekdoten. Der Autor ist Soziologie, lässt aber 
alle Disziplingrenzen hinter sich und orientiert seine übergreifende Dar- 
stellung der empirischen Methoden und statistischen Grundzüge konse- 
quent am Forschungsablauf. 

Das größere der beiden kleinen Lehrbücher von Hussy, Schreier und 
Echterhoff**’ ist an „Psychologie und Sozialwissenschaften für Bachelor“ 
gerichtet. Nur die erste Hälfte betrifft überhaupt quantitative (der Rest qua- 
litative und gemischte) Methoden, dafür reicht das Themenspektrum von 
„Was ist Wissenschaft?“ bis „Datenerhebung im Internet“, nur die Statistik 
kommt sehr kurz. 

Das andere kleine Lehrbuch stammt von einem Psychologen (Beller),*** 
richtet sich aber an keine bestimmte Disziplin. Es bietet eine überaus kom- 
pakte Darstellung (mit Beispielen und Arbeitsanregungen), die vielfach auf 
das große Lehrbuch von Bortz und Döring verweist und sich daher als Ein- 
stiegslektüre eignet. Vorbildlich ist die wiederholt betonte Differenzierung 


355 


33 T awless/Robbennolt/Ulen, Methods 2010. 

354 Bortz/Döring, Forschungsmethoden 2006. 

355 Sedlmeier/Renkewitz, Forschungsmethoden 2008. 

356 Diekmann, Sozialforschung 2012. 

#57 Hussy/Schreier/Echterhoff, Forschungsmethoden 2010 
358 Beller, Forschen lernen 2008. 
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zwischen formal-forschungslogischen und inhaltlich-wertenden Entschei- 
dungen. 

Das siebte Lehrbuch schließlich, wiederum in englischer Sprache, 
stammt von Ellis” und umfasst drei Themen (Effektgrößen, Teststärken 
und Metastudien), die für die „Interpretation von Forschungserkenntnis- 
sen“ und das Verständnis aktueller empirischer Entwicklungstendenzen un- 
entbehrlich sind. Das Buch tritt mit dem Anspruch auf, seinen komplizier- 
ten Gegenstand „kauderwelschfrei“ (jargon-free) zu präsentieren, und wird 
diesem Anspruch vollauf gerecht: Mit minimalen statistischen Vorkenntnis- 
sen flüssig lesbar, ebenso unterhaltsam wie fundiert, schließt es mit „30 
Empfehlungen für Forscher“ auf dem aktuellen Stand der Methodik. 

Weiterhin habe ich mehrfach zitiert: 

Drei kleine (weitgehend überschneidungsfreie) Taschenbücher über 
Wahrscheinlichkeit und Statistik von Krämer.” Teilweise seit mehr als 
zwanzig Jahren im Handel und kürzlich neu herausgegeben, sind sie popu- 
lärwissenschaftliche „Bestseller“. Obwohl für Laien geschrieben und anek- 
dotisch statt systematisch geordnet, vermitteln sie auch dem wissenschaft- 
lich-systematisch Interessierten, der ein gedankliches Ordnungssystem mit- 
bringt,” solide und sehr plastische Einsichten in die Statistik. 

Ein englischsprachiges Lehrbuch des Sozialpsychologen Abelson über 
„Statistik als prinzipiengeleitete Argumentation“.’° Während einige Ab- 
schnitte statistisches Vorwissen voraussetzen und einige der zahlreichen 
Beispiele veraltet erscheinen, verdeutlicht das Buch wie kein zweites den 
rhetorischen Charakter statistischer Datenauswertung und ist leicht lesbar 
geschrieben, mit viel Humor und einem seltenen Mut zur Originalität. °°° 

Schließlich wurde einige empfehlenswerte Lehrliteratur vorliegend 
nicht zitiert: 

Ein im wahrsten Sinne des Wortes anschauliches Lehrbuch über die 
Grundlagen der Statistik bietet die Gemeinschaftsarbeit des Statistikers 
Smith mit dem Grafiker Gonick.* Von den Anfängen der Wahrscheinlich- 
keitsrechnung bis hin zu statistischen Grundkonzepten bietet dieses Lehr- 
buch dem Statistikneuling eine kurzweilige und zügig lesbare Einführung 
im Comic-Format. 


39 Ellis, Effect Sizes 2010. 

360 Krämer, Statistik 2011; Krämer, Gebrauchsanweisung 2010; Krämer, Denkste! 2011. 

*6! Zur beschreibenden Statistik Krämer, Gebrauchsanweisung 2010, 25 ff. (Kap. 2-4) so- 
wie Krämer, Statistik 2011, 67 ff. (Kap. 5); zur schließenden Statistik Krämer, Denkste! 2011, 
187 ff. (Kap. 8); zu Korrelation und Kausalität Krämer, Gebrauchsanweisung 2010, 183 (Kap. 
13) sowie Krämer, Statistik 2011, 167 ff. (Kap. 14). 

3 Abelson, Principled Argument 1995. 

363 Abelsons Neuschöpfungen des MAGIC-Akronyms und der ticks- und buts-Terminolo- 
gie (oben nach Fn. 318) sind nur die offensichtlichsten Beispiele. 

3% Gonick/Smith, Statistik 2009. 
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Mit einigem Vorwissen besonders gewinnbringend zu lesen ist das eng- 
lische Lehrbuch über die „Grundlagen moderner statistischer Methoden“ 
von Wilcox.°° Es richtet sich ausdrücklich an Nichtstatistiker und erläutert 
traditionelle Probleme der Statistik sowie „topaktuelle“ (cutting edge) Lö- 
sungsansätze, intuitiv und nahezu formelfrei. Es ignoriert Alternativen zur 
frequentistischen Statistik, erläutert diese dafür sehr eingängig und fun- 
diert. 


36° Wilcox, Statistical Methods 2010. 


§ 3 


Die Gültigkeiten empirischer Forschung 


„Wo eine Tatsache auf Grund wissenschaftlicher 
Erkenntnis feststeht, ist für eine richterliche Feststellung 
und Überzeugungsbildung naturgemäß kein Raum mehr.“! 
— Bundesgerichtshof 1957 


„Sowohl im allgemeinen praktischen als auch im juristischen Diskurs 
[...] sind Regeln des vernünftigen Vermutens erforderlich. Dabei kann 
die Relevanz empirischen Wissen für juristische Argumentationen 
kaum überbewertet werden.“ 

— Robert Alexy 1978 


Das wichtigste Fazit des vorangegangenen Kapitels findet sich im siebten 
Rezeptionsgrundsatz,* demzufolge die juristische Rezeption sich in erster 
Linie auf Forschungssynthesen stützen sollte, weil nur sie den empirischen 
Erkenntnisfortschritt zuverlässig abbilden. Allerdings kommen juristische 
Rezipienten auf der Suche nach empirischer Erkenntnis um Primärstudien 
nie ganz herum, denn die Taktung der Rechtspolitik erlaubt es oft nicht, 
auf die für Forschungssynthesen erforderliche Evidenzmasse zu warten, 
zumal nie sicher ist, ob zu einer bestimmten rechtlichen Frage überhaupt je 
ausreichend empirische Forschung existieren wird.* Deshalb müssen juris- 
tische Rezipienten einzelne Primärstudien würdigen und ihre Aussagekraft 
beurteilen können. Aussagekraft, das wurde oben in $ 2 A.II.1. bereits her- 
ausgearbeitet, bemisst sich an der Gültigkeit einer Studie — genauer: an 
den Gültigkeiten einer Studie, denn wie oben dargelegt lässt sich jede Stu- 
die anhand zweier unterschiedlicher, aber miteinander verbundener Gültig- 
keitsmaßstäbe beurteilen. Auf deren grundlegendes Spannungsverhältnis 
gehe ich zunächst näher ein (A.) bevor ich den Rest des Kapitels der Dis- 
kussion, Illustration und Erweiterung dieser Zweiteilung widme (B.). 


' BGHSt 10, 208, 211, zit. nach Upmeier, Fakten 2010, 128; offen bleibt damit freilich, 
wann eine wissenschaftliche Erkenntnis als ,,feststehend“ angesehen werden kann. 

? Alexy, Argumentation 1983, 287. 

3 Oben § 2 B.VII. 

* Vgl. schon oben $ 2 bei Fn. 67 und Fn. 208. 
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Die beiden Gültigkeitskriterien empirischer Forschung wurden oben ($ 2 
A.II.1.) bereits eingeführt und sind nun noch genauer zu umreißen. Zuvor 
ist allerdings ein Vorbehalt nachzutragen, der bisher aus Gründen der Les- 
barkeit unterschlagen wurde. 


I. Vorbemerkungen zur Gültigkeitenlehre 


Es ist natürlich vermessen, über „die beiden Giiltigkeiten“ zu sprechen, 
denn Gültigkeit ist keine ontologische Kategorie, sondern eine normative 
Setzung. Es gibt genauso wenig „zwei Gültigkeiten empirischer For- 
schung“ wie es „zwei ethische Maßstäbe des Rechts“ gibt. Doch auch 
wenn es nicht zwingend ist, Rechtsnormen zwischen den Polen der Nütz- 
lichkeits- und der Pflichtenethik zu verorten,° so hat es sich doch als nütz- 
lich und erkenntnisfördernd herausgestellt. Ebenso verhält es sich mit der 
Gültigkeitenlehre. 

Wie die meisten wissenschaftlichen Lehren, ist sie eng mit ihrem Be- 
gründer verknüpft und letztlich nur einer von vielen möglichen Deutungs- 
vorschlagen® — wenn auch derjenige, der sich kraft rhetorischer Uberzeu- 
gungskraft und praktischer Bewährung am weitesten durchsetzen konnte. 
Er stammt von Donald Campbell, der ihn erstmals 1957 in Anlehnung an 
die psychologische Testtheorie formulierte, 1979 gemeinsam mit Thomas 
Cook die messtheoretischen Aspekte der Differenzierung noch stärker her- 
ausarbeitete, um schließlich die vormalige Zweiteilung vollends in eine 
Vierteilung aufzulösen.’ Diese neue vierwertige Typologie enthält neben 
der inneren und äußeren Gültigkeit noch die statistische Schlussgültigkeit 
(statistical conclusion validity) sowie die Konstruktgültigkeit (construct 
validity). Beide zu erläutern setzt allerdings soviel Vorwissen in Mess- 
und Testtheorie voraus, dass hier darauf verzichtet wird. 

Ebenso verzichtet wird auf die Darstellung der vielen weiteren Gültig- 
keitskriterien,’? die im Lauf der Zeit von anderen Autoren vorgeschlagen 


` Mastronardi, Juristisches Denken 2003, Rn. 23: „Juristisches Denken bewegt sich zwi- 
schen den Polen der Nützlichkeits- und der Pflichtenethik (Utilitarismus und Deontologie).“ 

° Vgl. z.B. Reichardt, New Dir Eval 2011, 43 und oben § 2 Fn. 324. 

7 Zu dieser Entwicklung m.w.N. Shadish/Cook/Campbell, Causal Inference 2002, 37 ff.; 
Heukelom, J Econ Meth 2011, 13, 14 ff. 

® Ausf. Shadish/Cook/Campbell, Causal Inference 2002, 42 ff. zur statistischen und 64 ff. 
zur Konstruktvalidität. 

° Aus dem Stichwortverzeichnis von Bortz/Döring, Forschungsmethoden 2006: „Validität: 
differenzielle, diskriminante, externe, Inhalts-, interne, [...] konvergente, Konstrukt-, Kriteri- 
ums-, prognostische [...] statistische, Übereinstimmungs-“ und dabei fehlen noch so populäre 
Schlagworte wie ökologische, diagnostische und Augenscheinvalidität (face validity). 
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wurden und einander oft überlappen oder aber ganz unvereinbare Grundpo- 
sitionen reflektieren. Diese näher zu beleuchten wäre der Kohärenz und 
Verständlichkeit dieser Arbeit abträglich und verspräche auf ihrem Ab- 
straktionsniveau kaum Mehrwert, denn die hier übernommene ursprüngli- 
che Zweiteilung ist das leitende Ordnungsprinzip auch in der revidierten 
Campbellschen Gültigkeitenlehre'’ und ähnlichen Differenzierungen.'! Da- 
her belasse ich es bei der zweiwertigen Typologie, die Kennern der Materie 
unvollständig scheinen mag, für den hiesigen Zweck aber völlig ausreicht. 


II. Eindeutigkeit (innere Gültigkeit) 


Die innere Gültigkeit misst die Aussagekraft einer Studie hinsichtlich der 
eindeutigen Feststellung von Ursachenzusammenhängen.'? „Messen“ meint 
hier freilich nicht die Bezifferung mit einer Messgröße, sondern die norma- 
tive Beurteilung, wie gut die Studie dem Zweck der Ein-Deutigkeit (oben 
$ 2 nach Fn. 44) dient. Insofern lassen sich nur (aber immerhin) Kriterien 
dafür benennen, ob eine Studie empirisch Ursache und Wirkung unter- 
scheiden kann. Es sind mindestens drei:'° 

Erstens müssen Veränderungen der vermeintlichen Ursache mit Verän- 
derungen der vermeintlichen Wirkung einhergehen, und umgekehrt. Das 
wird Kovariation genannt (von lat. com und variare, zusammen verän- 
dern)'* und lässt sich durch den aus der beschreibenden Statistik bekannten 
Korrelationskoeffizienten beziffern (dazu oben $ 2 A.IV.1.). Die erste Vor- 
aussetzung lässt sich also auch so ausdrücken: Der Korrelationskoeffizient 


1 Ersichtlich in Shadish/Cook/Campbell, Causal Inference 2002 schon an der Kapitelglie- 
derung (“2. Statistical Conclusion Validity and Internal Validity” ggü. “3. Construct Validity 
and External Validity”) sowie ausdrücklich etwa auf 63 (“internal validity and statistical con- 
clusion validity [...] are closely related. Both are primarily concerned with study operations”) 
und 93 (“Construct validity and external validity are related to each other [...] both are gene- 
ralizations”). 

!! Heukelom, J Econ Meth 2011, 13, 17 f.: “An example is the 2000 eight-tome version of 
the APA’s Encyclopedia of Psychology. The Encyclopedia contained two entries for validity, 
‘Validity’, and ‘Construct Validity’ [...] In addition to construct validity, validity was then di- 
vided into a number of categories and sub-categories. Only at the end did the validity-entry 
[... cite] internal and external validity as its main categories.” 

12? Zu deren rechtlicher Relevanz eindringlich Lempert, J Emp L Stud 2010, 907, 926: “Al- 
ways ask about mechanism; understanding why a situation exists is as important to policy 
analysis as knowing whether it exists.” 

3 Sedlmeier/Renkewitz, Forschungsmethoden 2008, 127 ff. (Kap. 5.2.1); Shadish/Cook/ 
Campbell, Causal Inference 2002, 6 f.; Lawless/Robbennolt/Ulen, Methods 2010, 31; Henry, 
Psy Ing 2008, 49, 66 m.w.N. setzt viertens “some logical mechanism” zwischen den Variablen 
voraus; Thye in: Webster/Sell, Experiments 2007, 60 ff. ersetzt das dritte Kriterium durch 
vier: contiguity, nonspuriousness, consistency und theoretical plausibility. 

14 Dudenredaktion, Fremdwörterbuch 2000, 731 („kon...“), 1388 („variieren“); Harper, 
Etymology 2014, Stichworte “com-”, “variation” und “vary”. 
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zwischen den Messgrößen für die vermeintliche Ursache und die vermeint - 
liche Wirkung darf nicht null sein. 

Zweitens müssen Änderungen der vermeintlichen Wirkung den Ände- 
rungen der vermeintlichen Ursache zeitlich nachfolgen. Das lässt sich mit 
einer Anleihe aus der Grammatik als Nachzeitigkeit bezeichnen." Nachzei- 
tigkeit ist zwar keine hinreichende Bedingung zur Feststellung von Kausa- 
lität — das entspräche dem logischen Fehlschluss des post hoc ergo propter 
hoc („danach, also deswegen“) — aber sie ist eine notwendige Bedingung. 
Die zweite Voraussetzung lässt sich also auch so ausdrücken: Ursachen- 
rückschlüsse setzen Zeitreihendaten voraus. Sogar Experimente sind letzt- 
lich nur Zeitreihen aus gleichen Anfangszuständen und manipulierten End- 
zustanden. '° 

Drittens darf es keine Verunreinigung (confound)'’ der vermeintlichen 
Ursache geben.'* Das heißt, dass keine Moderatorvariable (zum Begriff 
oben § 2 nach Fn. 68) ihrerseits mit der vermeintlichen Ursache stark ko- 
variieren darf. Andernfalls wäre nicht zu klären, welche der beiden Varia- 
blen — die vermeintliche Ursache, die Moderatorvariable oder beide — die 
beobachtete Wirkung zeitigt. Dieses Problem ist aus der Rechtsdogmatik 
als „alternative Kausalität“ bekannt und liegt vor allem $ 830 I 2 BGB, in 
gewissem Umfang aber auch $ 231 StGB zugrunde. 

Je zweifelsfreier diese drei Voraussetzungen vorliegen, desto größer ist 
die Eindeutigkeit der Studie. Dabei bedarf es immer einer kumulativen Be- 
trachtung der drei Voraussetzungen, denn auch Sozialwissenschaftler ver- 
nachlässigen oft, dass insbesondere die Korrelation eine zwar notwendige, 
aber keineswegs hinreichende Voraussetzung für einen empirischen Ursa- 
chenschluss ist.” Eine noch so starke Korrelation sagt nichts über die Ur- 


'S Sedlmeier/Renkewitz, Forschungsmethoden 2008, 128 sprechen umgekehrt von „zeitli- 
cher Präzedenz“. 

16 So die Perspektive von van Belle, Rules of Thumb 2008, 58: “To establish cause and ef- 
fect requires longitudinal data. [...] Since causes precede effects it [sic] requires observations 
measured over time. [...] The randomized experiment is essentially longitudinal. The rando- 
mization assures that the groups are comparable at baseline.” 

7 Von lat. com und fundere, zusammen schiitten (Harper, Etymology 2014, Stichwort 
“confound”); vgl. Dudenredaktion, Fremdwörterbuch 2000, 736 („konfundieren“) und den 
verwandten Rechtsbegriff „Konfusion“: Creifelds/Weber, Rechtswörterbuch 2007, 682. 

® Ho/Rubin, Ann Rev L Soc Sci 2011, 17, 22: “alternatively known as exogeneity, condi- 
tional exogeneity, ignorability, or selection on observables” — oder eben “impurities” (Abel- 
son, Principled Argument 1995, 187 ff.). 

° Vgl. Wagner in: Habersack, MK-BGB 2013, § 831 Rn. 28 ff., und zu § 231 StGB schon 
RGSt 9, 370, 380: „Schwierigkeit des Beweises [... ist] Grund der Aufstellung des Reates 
[Vorwurfs] des §. 227 [heute 231]*. 

2 Abelson, Principled Argument 1995, 181: “surprising how causal implications [.] sneak 
insidiously into interpretations of correlations.”; Stanovich, Psychology 2012, 80: “Tempting 
correlational evidence combined with a preexisting bias may deceive even the best of minds.” 
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sachenbeziehung aus, wenn nicht überzeugend dargetan werden kann, dass 
auch die Nachzeitigkeit vorliegt und Verunreinigungen fehlen. 


III. Übertragbarkeit (äußere Gültigkeit) 


Die äußere Gültigkeit misst die Aussagekraft einer Studie über den für die 
Forschungsfrage relevanten Lebenssachverhalt. Dabei wird herkömmlich 
von der „Verallgemeinerbarkeit“ oder „Generalisierbarkeit“ der Studie ge- 
sprochen (vgl. $2 Fn. 44), doch ein genauerer Blick belegt zwei unter- 
schiedliche Wege der Übertragbarkeit, von denen nur einer auf die aufstei- 
gende Richtung (vom Speziellen zum Allgemeinen) beschränkt ist. 

Dieser erste Weg ist zweifellos der vorzugswürdige, zugleich aber der 
weniger praktikable. Es ist derjenige der Verallgemeinerung aus der Zu- 
fallsstichprobe auf die Grundgesamtheit, also das oben ($ 2 A.IV.2.) einge- 
führte Grundprinzip der schließenden Statistik. Seine Stärke sollte bereits 
deutlich geworden sein: Er erlaubt den Rückschluss auf die Grundgesamt- 
heit aus jedem ihrer Teile, weil ausgeschlossen werden kann, dass zwi- 
schen den Teilen systematische (d.h. nicht-zufällige) Unterschiede beste- 
hen. Die Schwäche dieses Mechanismus ist seine begrenzte Anwendbar- 
keit.”' Jede Studie hat mindestens vier Dimensionen, die mit UTOS abge- 
kürzt werden: Untersuchungseinheiten bzw. Teilnehmer (Units), Studienbe- 
dingungen (Treatments), Zielgrößen (Observations) und Situationen (Set- 
tings).” Um wirklich verallgemeinerbar zu sein, müsste eine Studie auf je- 
der dieser Dimensionen echte Zufallsstichproben ziehen. Das ist nachgera- 
de unmöglich. Selbst eine repräsentative Befragung von 100.000 deutschen 
Geschäftsführern über die Rolle von § 43 II GmbHG in ihrer täglichen Ar- 
beit erlaubt streng genommen nur dann eine verallgemeinerbare Aussage 
über die Rolle von $ 43 II GmbHG in der täglichen Arbeit deutscher Ge- 
schäftsführer, wenn die Stichprobe zufällig aus allen Geschäftsführern (U), 
aus allen möglichen Beziehungen (T) zur Geschäftsführerhaftung (,,in der 
Zeitung darüber gelesen haben“, „es bei anderen beobachtet haben“, 
„selbst erlebt haben“), aus allen möglichen Reaktionen (O) auf die jeweili- 
ge Beziehung (,,ignorieren“, „extra provozieren“, „gar nicht mehr aus dem 
Haus gehen“) und aus allen denkbaren Aspekten der täglichen Arbeit eines 
Geschäftsführers (S) gezogen ist. Dabei ist unmittelbar einsichtig, dass in 
drei der vier Kategorien schon gar nicht klar ist, wie groß die Grundge- 


*! Shadish/Cook/Campbell, Causal Inference 2002, 24: “Formal sampling methods usually 
offer only a limited solution to causal generalization problems.” (ähnl. 348); Chui in: Mc- 
Conville/Chui, Methods 2007, 46, 56: “randomisation is not always possible for various rea- 
sons”. 

? Shadish/Cook/Campbell, Causal Inference 2002, 19 m.w.N. zum Ursprung dieser Kate- 
gorisierung. 
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samtheit überhaupt sein könnte, und dass in der Teilnehmer-Dimension (U) 
nie eine Stichprobe aus allen Geschäftsführern möglich ist, sondern allen- 
falls aus den im Handelsregister eingetragenen, mit herkömmlichen Kom- 
munikationsmitteln erreichbaren, die Frage verstehenden, des Schreibens 
fähigen, antwortwilligen und auch sonst kooperativen Geschäftsführern. 
Die Verallgemeinerung von der Stichprobe auf ihre Grundgesamtheit ist 
deshalb zwar das Ideal der empirischen Forschung, aber ein unerreichbares 
— gleich welche Art von Studie man unternimmt.” 

Das für die Frage der äußeren Gültigkeit größere Gewicht kommt daher 
dem zweiten Weg zu, der von den Urhebern der Gültigkeitenlehre vorge- 
schlagen und als ,,Fundamentaltheorie übertragbarer Ursachenschlüsse“ 
(grounded theory of generalized causal inference) beschrieben wurde.” 
Dabei handelt es sich um einen aus der Forschungspraxis abgeleiteten Ka- 
talog von fünf Kriterien, mittels derer die Übertragbarkeit einer Studie re- 
gelmäßig bewertet wird.’ Nach dieser Übertragungslehre ist der Zielkon- 
text, in den eine Erkenntnis übertragen werden soll, mit dem urspriingli- 
chen Studienkontext qualitativ zu vergleichen,” und zwar mit Blick auf 


1. ihre augenscheinlichen Ähnlichkeiten (surface similarity), 

2. diejenigen ihrer Unterschiede, die als folgenlos bekannt sind (ruling out 
irrelevancies), 

3. ihre belangvollen Unterschiede (making discriminations), die die Über- 
tragung begrenzen, 

4. die wechselseitige Hochrechenbarkeit (interpolation and extrapolation) 
ihrer UTOS-Dimensionen,”’ und 


3 Mintken, VR 1992, 252, 253: „Die zumeist begrenzten Untersuchungsmöglichkeiten 
schränken in der Regel auch den Übertragungsbereich merklich ein.“ 

4 Shadish/Cook/Campbell, Causal Inference 2002, 24 f., 348 ff.; grounded theory ist die 
gelegentlich (vgl. Bortz/Döring, Forschungsmethoden 2006, 332 ff.) als „gegenstandsbezoge- 
ne Theoriebildung“ übersetzte Bezeichnung für eine etablierte qualitative „Auswertungstech- 
nik zur Entwicklung und Überprüfung von Theorien, die eng am vorgefundenen Material ar- 
beitet bzw. in den Daten verankert (grounded) ist.“ (Hussy/Schreier/Echterhoff, Forschungs- 
methoden 2010, 194 ff.). 

°° So Shadish/Cook/Campbell, Causal Inference 2002, 348 f.; mit einer Analogie ließe sich 
daher vielleicht sagen, dass diese „Übertragungslehre“ sich zur Verallgemeinerung aus Zu- 
fallsstichproben ungefähr so verhält wie Kuhns soziologische Lehre vom Paradigmenwechsel 
zu Poppers Wissenschaftstheorie vom inkrementellen Fortschritt durch Falsifikation und Be- 
währung (dazu Sedlmeier/Renkewitz, Forschungsmethoden 2008, 31 f.): Hier die Wissen- 
schaftspraxis, dort das unerreichbare Idealbild. 

2° Ausf. zum Folgenden Shadish/Cook/Campbell, Causal Inference 2002, 353 ff. 

” Shadish/Cook/Campbell, Causal Inference 2002, 366: “Both interpolation and extrapo- 
lation work best when more levels are sampled, when the functional form is well-identified 
over the sampled range, and when the extrapolation [sic] is to levels close to those originally 
sampled.” 
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5. die Ähnlichkeit ihrer mutmaßlichen Ursachenstrukturen (causal expla- 
nations). 


Je ähnlicher sich der Studien- und der Zielkontext in diesen fünf Dimen - 
sionen sind, desto größer ist die Übertragbarkeit von empirischen Erkennt- 
nissen zwischen ihnen — nicht nur aus dem Speziellen ins Allgemeine, son- 
dern auch andersherum, oder auf gleicher Ebene,” etwa von Berliner Kom- 
plementären auf Hamburger Komplementäre (Ortsebene), von Berliner 
Komplementären auf Berliner Kommanditisten (Sachebene) oder von 
Hamburger Kommanditisten 1990 auf Hamburger Kommanditisten heute 
(Zeitebene). Dabei ist es ratsam, einer Empfehlung der evidenzbasierten 
Medizin zu folgen und 


„bei der Frage nach der Übertragbarkeit [innerlich gültiger] Studienergebnisse auf einzel- 
ne [...] Entscheidungssituationen nach einem Ausschlussprinzip zu verfahren. Danach 
wird die Übertragbarkeit so lange als gegeben angenommen, wie nicht begründete Argu- 
mente gegen eine solche Übertragung sprechen. Praktischer ausgedrückt wird also nicht 
die Frage beantwortet ‚Sind die Ergebnisse dieser Studie [...] übertragbar?‘, sondern die 
Frage ‚Was spricht dagegen, dass die Ergebnisse dieser Studie [...] übertragbar sind? ‘“”° 


B. Beobachtung und Experiment 


Nachdem der normative Gehalt der beiden Gültigkeitskriterien nun näher 
bestimmt ist, geht es darum, ihre Anwendung im empirischen Forschungs- 
alltag zu untersuchen. Wie oben (§ 2 A.II.1.) vorweggenommen, lassen 
sich Eindeutigkeit und Übertragbarkeit in eine methodische Zweiteilung 
von Beobachtung und Experiment übersetzen.” 

Während Beobachtungen jeden Eingriff in die untersuchten Lebenssach- 
verhalte idealerweise vermeiden, °' sind solche Eingriffe im Experiment er- 
forderlich, ja geradezu dessen Definitionsmerkmal. Daher stehen die Gül- 
tigkeiten empirischer Forschung regelmäßig im Widerspruch zueinander, 


°8 Vgl. Shadish/Cook/Campbell, Causal Inference 2002, 21 f., 83 f. 

® Windeler, Gesundheitswesen 2008, 418, 421. 

*° Ebenso van Belle, Rules of Thumb 2008, 3: “Broadly speaking there are two approaches 
to getting the data: observational studies and designed experiments.”; Arlen/Talley, Experi- 
mental 2008, xv f.: “There are two generally accepted (and somewhat related) methodologies 
for testing theories of human behavior: (1) empiricism, which analyzes data drawn from the 
‘real world’; and (2) experimentalism, which analyzes data drawn from the laboratory.”; Ep- 
stein/King, U Chi L Rev 2002, 1, 2; Epstein/Martin in: Cane/Kritzer, Hdb Empirical 2010, 
901, 904. 

3! Beachte Beller, Forschen lernen 2008, 33: „Im Prinzip ist jede Datenerhebung eine Art 
Beobachtung. Im engeren Sinn [...] allerdings nur das Sammeln von Daten in einem ‚nicht- 
kommunikativen Prozess‘.“; vgl. auch Bortz/Döring, Forschungsmethoden 2006, 262 m.w.N. 
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und die Methodenwahl wird zur ersten und wichtigsten wertenden Ent- 
scheidung im Forschungsprozess.°” 

Die hier aufgegriffene Zweiteilung ist natürlich nicht die einzig denkba- 
re (vgl. unten Fn. 229), erscheint mir aber besonders fruchtbar für die juris- 
tische Rezeption empirischer Forschung.” Im Folgenden stelle ich zu- 
nächst die beiden Idealtypen vor (II., III.) und erörtere sodann die Zwi- 
schenschattierungen (IV.). Denn wie sich zeigen wird, löst sich die Zwei- 
teilung bei genauerem Blick in ein Spektrum auf, innerhalb dessen ganz 
verschiedene Gewichtungen von Übertragbarkeit und Eindeutigkeit mög- 
lich sind. Eingerahmt wird die Darstellung durch eine konkrete Rechtsfra- 
ge (L, V.), die die Darstellung der Studienarten illustriert." 


I. Zum Beispiel Anreizwirkung der Vorstandsvergütung 


Die folgende Darstellung verschiedener Studienarten werde ich jeweils mit 
einer Beispielstudie verbinden, um die Möglichkeiten und Grenzen der je- 
weiligen Studienart zu illustrieren. Damit die Beispielstudien nicht unver- 
bunden nebeneinander stehen, habe ich eine übergreifende Frage ausge- 
wählt, zu der alle Beispielstudien, wenn auch mit ganz verschiedenen Me- 
thoden, beitragen: 


Steigt die Leistung von Vorstandsmitgliedern mit höherer Erfolgsvergütung? 


Diese Frage ist sowohl aus rechtsdogmatischer Sicht als auch aus rechts- 
ökonomischer und rechtspolitischer Sicht relevant: 

Rechtsdogmatisch schon deshalb, weil § 87 I 1 AktG den Aufsichtsrat 
verpflichtet, und zwar seit 2009 auch ausdrücklich,” „bei der Festsetzung 
der Gesamtbezüge des einzelnen Vorstandsmitglieds [...] dafür zu sorgen, 
dass diese in einem angemessenen Verhältnis zu den [...] Leistungen des 
Vorstandsmitglieds“ stehen.” 


32? Shadish/Cook/Campbell, Causal Inference 2002, 372: “Decisions that facilitate genera- 
lization will frequently come at the cost of [...] other goals. For example, making irrelevan- 
cies heterogeneous [...] at the cost of decreasing statistical power.”; vgl. unten bei Fn. 173. 

3 Sie ähnelt insb. der von Mastronardi, Juristisches Denken 2003, Rn. 35 ff. (Kap. II.1) 
dargestellten Dichotomie von Teilnahme und Beobachtung im juristischen Denken. 

* Eingedenk Hogarth, J Acc Res 1982, S108, 109: “one does research for substantive rea- 
sons; thus, to evaluate research methodology without specifying either the nature of the spe- 
cific phenomena considered, or the motivation for the particular research, is problematic”. 

> Art. 1 Nr. 1 lit. a VorstAG (Gesetz zur Angemessenheit der Vorstandsvergiitung) v. 
31.7.2009, BGBl. I 2509; zur früheren Rechtslage, als § 87 I 1 AktG nur die „Aufgaben“, 
nicht aber die „Leistung“ erwähnte, vgl. nur Thüsing, ZGR 2003, 457; Hoffmann-Becking, 
ZHR 2005, 155, 158 f.; Fonk, NZG 2005, 248, 249 f. 

3° Dazu Dauner-Lieb in: Henssler/Strohn, GftsR 2014, § 87 AktG Rn. 16; Fleischer in: 
Spindler/Stilz, AktG 2010, § 87 Rn. 11 ff.; Seibt in: Lutter/Schmidt, AktG 2010, § 87 Rn. 9; 
rechtstatsächlich aus Praktikersicht Ehren/Gros, Konzern 2010, 412. 
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Dementsprechend stellt sich die Frage, welches Verhältnis von Bezügen 
und Leistung angemessen ist. Die objektiv-teleologische Auslegung dieses 
Begriffs ergibt, „dass Vergütung auch Anreize zur Leistungssteigerung set- 
zen soll“, daher ist weiter zu fragen, wann und warum die Vergütung leis- 
tungssteigernd wirkt. Das ist eine empirische Frage, und ihre Antwort ist 
nach $ 116 S. 1, 3 1.V.m. §§ 93 II 1, 87 I 1 AktG für mindestens zwei Ak- 
teure relevant: Erstens für den Aufsichtsrat, der für die Erfüllung seiner ge- 
setzlichen Pflicht haftet’ — und deshalb etwa auf die Vereinbarung varia- 
bler Vergütungsbestandteile” angewiesen sein könnte.” Zweitens für die 
Richterin, die in den (eher theoretischen) Fällen, in denen Vergütungsver- 
einbarungen zum Gegenstand einer Haftungsklage werden, darüber befin- 
den muss, ob der Aufsichtsrat ex ante davon ausgehen durfte, mit der ge- 
wählten Vergütungsregelung Leistungsanreize im Interesse des Unterneh- 
mens gesetzt zu haben. 

Ganz ähnlich fragt sich aus rechtsökonomischer Sicht, ob die Vorstands- 
vergütung den Funktionen gerecht wird, die sich aus der mikroökonomi- 
schen Analyse des Rechts ergeben.*' Kernelement dieser Analyse ist der ra- 
tionale Eigennutzmaximierer (homo oeconomicus), der fremdnützige Ar- 
beit zu vermeiden sucht, weil sie sowohl Arbeitsleid als auch Opportuni- 
tätskosten in Form entgangener Freizeit verursacht. Mindestens diese Kos- 
ten muss ein etwaiger Auftraggeber (principal) durch die Zahlung einer 
Vergütung kompensieren. Die einfachste Vergütungsform — der genau auf- 
wandsgerechte Akkordlohn — lässt sich allerdings nur dort einsetzen, wo 
der Arbeitseinsatz des Auftragnehmers (agent) genau beobachtbar ist. Dar- 
an fehlt es bei nahezu allen Dienstleistungen, einschließlich jener, die der 
Vorstand für die Aktionäre (als Auftraggeber im Sinne der ökonomischen 


37 So Dauner-Lieb in: Henssler/Strohn, GftsR 2014, § 87 AktG Rn. 16; ebenso Seibt in: 
Lutter/Schmidt, AktG 2010, $ 87 Rn. 1: „nicht nur Entgelt für geleistete Tätigkeit, sondern 
auch Instrument der Verhaltenssteuerung“; ebd. Rn. 8, 11 zum „funktionalen Kriterium des 
optimierten Leistungsanreizes und Steuerungseffektes“; Ihrig/Wandt/Wittgens, ZIP 2012, H. 
40 Beil., 4 bei Fn. 23; krit. Kort, NJW 2005, 333, 335; ganz a.A. Fonk, NZG 2005, 248, 252. 

38 Henssler in: Henssler/Strohn, GftsR 2014, § 116 Rn. 25; Spindler in: Goette/Habersack, 
MK-AktG 2014, § 87 Rn. 126 ff.; Seibt in: Lutter/Schmidt, AktG 2010, § 87 Rn. 17; Drygala, 
ebd., § 116 Rn. 51 ff. 

° So ohne Weiteres Ziff. 4.2.3 II 2 DCGK sowie bspw. Dauner-Lieb in: Henssler/Strohn, 
GftsR 2014, § 87 AktG Rn. 16; weitere Nachw. bei Arnold, Steuerung 2007, 122 Fn. 50. 

” Thrig/Wandt/Wittgens, ZIP 2012, H. 40 Beil., 12: „Ob bei einer Kombination verschie- 
dener variabler Vergütungsbestandteile insgesamt ein längerfristiger Verhaltensanreiz gesetzt 
wird, ist [...] in erster Linie auch eine tatsächliche Frage“; krit. Bernhardt/Witt, ZfB 1999, 
825; Arnold, Steuerung 2007, 124 ff.; Windbichler in: Grundmann u.a., FS Juristische Fakul- 
tät 2010, 1079, 1093; psychologisch begründet Hamann, BRJ 2010, 27, 29 f. m.w.N. 

* Neben der hier erläuterten gehören dazu v.a. die Risikoanreiz- und die Interessenkopp- 
lungsfunktion, vgl. Schüller, Vorstandsvergütung 2002, 46 f.; Stenzel, Vorstandsvergütung 
2012, 94; krit. Brauer, NZG 2004, 502, 503. 
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Theorie) erbringt. Ist der Arbeitseinsatz der Vorstandsmitglieder allerdings 
unbeobachtbar (hidden action), so können sie ihren Nutzen dadurch maxi- 
mieren, dass sie ihren Arbeitseinsatz minimieren (shirking) und dadurch 
sowohl die vereinbarte Vergütung als auch Freizeit gewinnen. Dieser Ver- 
suchung (moral hazard) zur Ausnutzung der Informationsasymmetrie kön- 
nen die Aktionäre nicht vertraglich entgegenwirken, daher sind sie auf die 
zweitbeste Lösung angewiesen (second best), den Vorstand von vornherein 
in gewissem Umfang erfolgsabhängig zu entlohnen, damit er schon im ei- 
genen Interesse seinen Arbeitseinsatz maximiert.* Ob er das aber tatsäch- 
lich tut — ob also die Vergütung zu einer höheren Leistung führt — ist wie- 
derum eine empirische Frage. 

Schließlich sind empirische Erkenntnisse zu dieser Frage auch rechts- 
politisch relevant. Die Vorstandsvergütung gehört zu den Dauerthemen von 
Rechtspolitik und Gesetzgebung seit 1937 und war Gegenstand ganz unter- 
schiedlicher Regelungskonzepte.* Schon die Ermöglichung der optionsba- 
sierten Vorstandsvergütung (stock option plan) durch $ 192 II Nr. 3 AktG 
sollte dabei helfen, „das Management [.] zu einer an der langfristigen 
Wertsteigerung orientierten Unternehmensstrategie motivieren“.** Auch die 
heute geltenden Vorgaben zur Vergütungsstruktur in § 87 I 2, 3 AktG: 


„Die Vergütungsstruktur ist bei börsennotierten Gesellschaften auf eine nachhaltige Un- 
ternehmensentwicklung auszurichten. Variable Vergütungsbestandteile sollen daher eine 
mehrjährige Bemessungsgrundlage haben [...]“ 


beruhen auf einer ganz bestimmten Vorstellung über die Anreizwirkungen 
der Vorstandsvergütung — nämlich „dass von kurzfristig ausgerichteten 
Vergütungsinstrumenten fehlerhafte Verhaltensanreize ausgehen können“ 
und dass deshalb etwa „Gratifikationen und Boni nicht so angelegt sein 
sollen, dass die Erfüllung ihrer Parameter nur zum Stichtag [...] angestrebt 
wird“ oder dass „Aktien, die als Vergütung gewährt werden, Haltefristen 
unterliegen sollten, die sich an der Ausübungsfrist für Aktienoptionen ori- 
entieren“.* Ähnliches gilt für die unverbindliche, aber als „anerkannter 
Standard guter und verantwortungsvoller Unternehmensführung“ (Präam- 
bel DCGK) ausgegebene Empfehlung 4.2.3 des Deutschen Corporate Go- 
vernance Kodex, dass „die monetären Vergütungsteile [.] fixe und variable 
Bestandteile umfassen“ sollen. Die diesen Vorgaben zugrundeliegenden 


® Krit. Bernhardt/Witt, ZfB 1999, 825, 838: „In der Realität liegen die Dinge aber kompli- 
zierter.‘“ 

® Hamann, BRJ 2010, 27 f. m.w.N. identifiziert fünf historische Phasen mit je anderem 
Grundverständnis. 

“ Begr. Art. 1 Nr. 23 KonTraG, BT-Drs. 13/9712 v. 28.1.1998, 23. 

® Begr. AT und Art. 1 VorstAG-RegE, BT-Drs. 16/12278 v. 17.3.2009, 5. 
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Annahmen miissen sich empirischer Uberpriifung stellen und profitieren 
von einem genaueren Verständnis der Rechtswirklichkeit,* ja mehr noch: 


„Mit der Neufassung des § 87 Abs. 1 AktG hat der Gesetzgeber mittelbar den Auftrag er- 
teilt, Anreizeffekte zu erforschen, soll die Rechtsordnung nicht auf dem Stand ungesi- 
cherter Alltagstheorien verharren.““*” 


Das juristische Schrifttum ist sich durchaus bewusst, dass „die Grundan- 
nahme, durch moderne Vergütungsformen ließe sich [...] eine größere An- 
reizwirkung auf das Management ausüben“, bislang „nicht praktisch nach- 
gewiesen“ ist.** Die vorliegende Arbeit kann und will nur beschränkt zu 
diesem praktischen „Nachweis“ beitragen, denn erstens liegen bereits Mo- 
nographien vor, die auch auf empirische Erkenntnisse zurückgreifen (wenn 
auch noch nicht allzu methodenkritisch),*” und zweitens müssten viele Fa- 
cetten der Vergütungsgestaltung berücksichtigt werden (oben angeklungen 
sind bereits die Bedeutung langfristiger Anreizhorizonte und die Haltefris- 
ten für Belegschaftsaktien), um für eine gegebene Situation oder Situati- 
onstypen die jeweils anreizstärkste Gestaltung empirisch zu ermitteln.*° 

Um den Rahmen vorliegend nicht zu sprengen, beschränke ich mich auf 
die schon sehr konkrete (und für eine allgemeine Vergütungsevaluation zu 
konkrete) Ausgangsfrage, welchen Einfluss die Höhe einer erfolgsabhängi- 
gen Barvergütung auf die Leistungen des Vorstands hat. Zu dieser Frage 
wurden Studien mit ganz verschiedenen Methoden durchgeführt und sogar 
ein „evidenzbasierter Forschungsüberblick“ vorgelegt,°' daher halte ich sie 
für höchst anschaulich, um unterschiedliche empirische Herangehenswei- 
sen zu verstehen und zu erkennen, was jede von diesen für Übertragbarkeit 
und Eindeutigkeit der Erkenntnisse bedeutet. 


“6 Krit. Ihrig/Wandt/Wittgens, ZIP 2012, H. 40 Beil., 10: „Ob die Kodexempfehlungen an 
dieser Stelle tatsächlich ‚gute‘ Corporate Governance reflektieren, ist zweifelhaft“; ähnl. Gos- 
ling, PwC 2012: „If executive pay were genuinely motivating executives towards higher le- 
vels of performance, with benefits for all, there would surely be less controversy about the 
subject. But is it?“ 

“ Windbichler in: Grundmann u.a., FS Juristische Fakultät 2010, 1079, 1094 (Hervorhe- 
bung nur hier). 

‘8 Schüller, Vorstandsvergiitung 2002, 86, die aber trotzdem ebd. 89 ohne Begründung un- 
terstellt, „dass moderne Vergütungsformen und insbesondere Aktienoptionen [.] wohl einen 
positiven Einfluss auf die Leistungsbereitschaft von [...] Vorstandsmitgliedern haben“. 

® Schüller, Vorstandsvergütung 2002, 85 ff.; Stenzel, Vorstandsvergütung 2012, 223 ff. 

°° Ausf. Ihrig/Wandt/Wittgens, ZIP 2012, H. 40 Beil., 10 ff. 

5! Jacquart/Armstrong, Interf 2013, 580; pessimistisch dazu Pfeffer, Interf 2013, 578: “I 
am certain that Jacquart and Armstrong’s sensible, evidence-based suggestions for reforming 
executive pay have little chance of being implemented; they will face vigorous opposition 
from the various interests so well served by the present arrangements.” 
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II. Korrelationsstudien — Idealtyp der Übertragbarkeit 


Die größtmögliche Übertragbarkeit können Studien erzielen, die aufge- 
zeichnete Daten aus der bereits vergangenen Lebenswirklichkeit verwen- 
den. Da solche Studien ihre Hypothesen mittels schließender Statistik an 
bereits existenten Daten prüfen, lassen sie sich als sekundärstatistische 
Korrelationsstudien bezeichnen.” Diese Korrelationsstudien sind gewisser- 
maßen die reinste Form der Beobachtung, weil ihre Daten bereits existie- 
ren, die Studie also die untersuchten Lebensvorgänge auf keinen Fall be- 
einflusst haben kann. Dementsprechend weisen solche Studien die höchst- 
mögliche äußere Gültigkeit auf: Sie verwenden unverfälschte Daten aus 
genau dem Lebenssachverhalt, auf den ihre Fragestellung bezogen ist. Stu- 
dien- und Zielkontext decken sich, daher sind Korrelationsstudien nach der 
Gültigkeitenlehre (oben A.) der Idealtyp der Übertragbarkeit. 


1. Ein Beispiel: Kaplan & Rauh (2010) 


Eine vielbeachtete Studie zweier Ökonomen widmete sich der Frage, ob 
die Vorstandsgehälter in neuerer Zeit tatsächlich ungewöhnlich schnell ge- 
stiegen sind.” In diesem Zusammenhang werteten die Autoren auch aus, 
ob höhere Vorstandsvergütungen mit höheren Leistungen einhergehen.™ 
Die Vorstandsvergütungen wurden der Datenbank ,,ExecuComp“ entnom- 
men,” die alle 1.500 Unternehmen in den drei Hauptindizes der Rating- 
agentur Standard & Poor’s umfasst (S&P 500, S&P 400 mid-cap und S&P 
600 small-cap) und damit 88 % der gesamten Marktkapitalisierung US- 
amerikanischer Aktiengesellschaften abbildet.° Die Leistungen eines Vor- 
stands wurden anhand der um Brancheneffekte bereinigten Kapitalrendite 
des jeweiligen Unternehmens gemessen,” ähnlich wie in einer klassischen 


° Zur Korrelation oben § 2 nach Fn. 111; der Begriff „Korrelationsstudie“ wird andernorts 
auch i.w.S. verwendet, etwa für jegliche Beobachtungsstudien: Huber, Experiment 2005, 70; 
Hussy/Schreier/Echterhoff, Forschungsmethoden 2010, 148 ff. 

$ Kaplan/Rauh, Rev Fin Stud 2010, 1004; Synopse bei Bebchuk/Weisbach, Rev Fin Stud 
2010, 939, 946: “examine the question of whether the growth of pay can reflect market forces 
in a creative way. The idea is that if executive pay reflects market forces, then its growth 
should parallel that of other highly paid professions [...] such as financial service sector em- 
ployees from investment banks, hedge funds, private equity funds, and mutual funds (Wall 
Street), as well as corporate lawyers, professional athletes, and celebrities.” 

* Kaplan/Rauh, Rev Fin Stud 2010, 1004, 1043 unter “6. Pay-for-Performance”; Zeit- 
raum der Studie ist 1999-2004. 

5 Kaplan/Rauh, Rev Fin Stud 2010, 1004, 1005 bzw. 1044. 

5 Cadman/Klasa/Matsunaga, Acc Rev 2010, 1511. 

>’ Kaplan/Rauh, Rev Fin Stud 2010, 1004, 1044: “total return to the firm’s stock less the 
value-weighted performance of the firm’s industry (using Fama-French 1997 [.] returns).” 
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Korrelationsstudie zwanzig Jahre zuvor.” Weitere Einzelheiten der Opera- 
tionalisierung erübrigen sich für die Illustration der Herangehensweise; 
eine ausführliche Rezeption dieser Studie müsste freilich die Beschränkun - 
gen und normativen Konsequenzen der gewählten Operationalisierungen 
von „Vorstandsvergütung“ und „Leistung“ kritisch reflektieren. 

Die Studie teilt alle betrachteten Unternehmen zunächst in fünf Größen- 
kategorien (Quintile) auf, um der Tatsache Rechnung zu tragen, dass die 
Vorstandsvergütung mit der Unternehmensgröße steigt.” Innerhalb jedes 
Größenquintils ordnet sie sodann auch die Höhe der Vorstandsvergütungen 
in fünf Quintile und stellt fest, dass über alle Unternehmensgrößen hinweg 
steigende Vorstandsvergütungen mit steigender Kapitalrendite einherge- 
hen: Das bestbezahlte Fünftel der Vorstände erwirtschaftet eine durch- 
schnittliche Mehrrendite von 61 % im Vergleich zum jeweiligen Branchen- 
durchschnitt, während das schlechtestbezahlte Fünftel der Vorstände durch- 
schnittliche Minderrenditen von 19 % erwirtschaftet.°' Daraus schließen 
die Autoren, dass Vergütung und Leistung stark zusammenhängen.” 


2. Methodische Beschränkungen 


Da hier keine ausführliche Kritik an der Studie von Kaplan und Rauh, son- 
dern die Illustration der Korrelationsstudie als einer empirischen Herange- 
hensweise beabsichtigt ist, sind nunmehr ganz allgemein die methodischen 
Beschränkungen dieser Herangehensweise herauszuarbeiten. 

Dabei ist zunächst zu erinnern, was die Korrelationsstudie auszeichnet: 
Sie ist die Reinform der empirischen Beobachtung. Der Forscher beobach- 
tet genau den Lebenssachverhalt, der ihn interessiert, und ist zugleich frei 
von jedem Verdacht, diesen Lebenssachverhalt beeinflusst zu haben. Ande- 
rerseits verhindert dieses Vorgehen jede Aussage über Ursachenzusammen- 
hänge, was sich vor allem in vier Beschränkungen äußert: °* 


5 Jensen/Murphy, J Polit Econ 1990, 225, 227 berechneten eine “pay-performance sensiti- 
vity” als Verhältnis des marginalen Mehreinkommens von Vorständen zur marginalen Mehr- 
rendite von Aktionären. 

°° Kaplan/Rauh, Rev Fin Stud 2010, 1004, 1044 m.w.N. 

6 Berichtet werden nur Dreijahresdurchschnitte, aber vgl. Kaplan/Rauh, Rev Fin Stud 
2010, 1004, 1045: “The results are qualitatively identical for one year and five years of stock 
performance.” 

6! Kaplan/Rauh, Rev Fin Stud 2010, 1004, 1045 mit Trendgrafik auf 1044. 

€ Kaplan/Rauh, Rev Fin Stud 2010, 1004, 1044: “actual compensation is highly related to 
performance, i.e., there is strong pay-for-performance.”; zu den andernorts geäußerten rechts- 
politischen Schlussfolgerungen des Studienerstautors vgl. Bogle, Acad Mgmt Persp 2008, 21. 

% Vgl. Klick, JITE 2010, 166, 167: “researchers need to remain appropriately humble. The 
best a researcher can do in this area is to present results as purely descriptive, abandoning the 
search for causality and strong empirical tests of hypotheses.” 
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a) Endogenität (reverse causality) 


Die erste Beschränkung ist diejenige der Endogenität. Das lässt sich sinn- 
gemäß mit „Ausgeburt“ übersetzen (oben § 2 Fn. 67) und bedeutet, dass 
die vermeintliche Ursache ihrerseits eine Ausgeburt (Wirkung) anderer Ur- 
sachen ist, sich also nicht in einer Messgröße isolieren lässt. Etwa könnte 
die vermeintliche Ursache in Wirklichkeit ganz oder teilweise durch die 
Messgröße verursacht worden sein, die man für ihre Wirkung hielt, so dass 
die Ursachenbeziehung umgekehrt von der vorgestellten verläuft (reverse 
causality)® — so finden sich in der Literatur sowohl Studien, die die Vor- 
standsleistung als abhängig von der Vorstandsvergütung betrachten, als 
auch umgekehrt.° Ebenso gut könnten aber beide Messgrößen durch eine 
dritte verursacht werden — dann spricht man von einer Bastardkorrelation 
(spurious correlation)°’ — wie in der berühmten Korrelation von Storchen- 
populationen und Geburtenraten, die beide mit dem Urbanisierungsgrad 
steigen und fallen, oder der in den USA kolportierten Korrelation zwi- 
schen Eisverkäufen und Mordraten, die beide von Jahreszeit und Wetter 
abhängen.‘ Endogenität in all ihren Ausprägungen ist letztlich nichts Neu- 
es, sondern nur eine andere Formulierung dafür, dass Korrelationsstudien 
eben Korrelationen ermitteln, und Korrelationen noch keinen Kausalzu- 
sammenhang belegen (vgl. oben bei Fn. 20). 

Die Frage, ob die höhere Vergütung von Vorständen zu höheren Leistun- 
gen führt, betrifft gerade einen solchen Kausalzusammenhang — wie fast 
alle interessanten empirischen Fragen. Um sie zu beantworten, müssten ne- 
ben der Korrelation auch noch die Nachzeitigkeit und das Fehlen von Ver- 
unreinigungen festgestellt werden (oben A.II.). Ersteres ist zwar durch Pa- 
nelstudien möglich (dazu $ 2 bei Fn. 78), weshalb Korrelationsstudien in 


6 Nachfolgende Darstellung orientiert an Börsch-Supan/Köke, Ger Econ Rev 2002, 295 
(Fazit 322: “what appear to be technical problems [...] are in fact deep problems of any empi- 
rical analysis, independent of the technical tool.”). 

© Weniger trennscharf führt Abelson, Principled Argument 1995, 181 Fn. 7 die Kausali- 
tätsumkehr als Sonderfall der “Third Variable” (180 ff.) ein, die im nächsten Satz des Haupt- 
textes besprochen wird. 

6° Instruktiv Devers/Cannella u.a., J Mgmt 2007, 1016, 1018 ff. 

7 Dazu Börsch-Supan/Köke, Ger Econ Rev 2002, 295, 297 f.; “spurious” heißt „unehe- 
lich“ (von lat. spurius, uneheliches Kind, Harper, Etymology 2014, zum „Spurius“ auch Du- 
denredaktion, Fremdwörterbuch 2000, 1264), was besser passt als die übliche Übersetzung 
„Scheinkorrelation‘“, denn die Korrelation existiert nicht scheinbar, sondern tatsächlich — und 
stammt nur aus anderer Quelle als vermutet. 

% Atteslander, Methoden 2010, 23 ff.; Diekmann, Sozialforschung 2012, 68 f.; Matthews, 
Teach Stat 2000, 36, passim; Kronmal, J Royal Stat Soc A 1993, 379, 382 ff.; im juristischen 
Schrifttum Röhl, Rechtssoziologie 1987, 116; Petersen, Staat 2010, 435, 448; Petersen/Goerg 
in: Towfigh/Petersen, Methoden 2010, 201, 234 f. 

© Zu diesem in den USA beliebten Bsp. Lawless/Robbennolt/Ulen, Methods 2010, 299. 
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diesem Format durchaus die höchste Eindeutigkeit geltend machen kön- 
nen” und dementsprechend auch in der Forschung zur Vorstandsvergiitung 
immer öfter eingesetzt werden.” Die Panelforschung begegnet aber ganz 
eigenen Herausforderungen, insbesondere kann sie den Teilnehmern kaum 
verborgen bleiben (sondern findet meist im Rahmen von Befragungsstudi- 
en statt, dazu unten bei Fn. 258) und kann sie durch systematischen Stich- 
probenausfall (sample attrition, Panelmortalität) verzerrt werden (unbalan- 
ced panel).'” Zudem können auch Panelstudien die Nachzeitigkeit nie ganz 
sicherstellen — wenn beispielsweise die Vorstände im Panel alle Anderun- 
gen der Vergütungshöhe stets vorhersähen, könnte die spätere Vergütungs- 
höhe auf die aktuelle Leistung vorwirken. 

Gar nicht ausschließen kann die Korrelationsstudie jedenfalls, dass an- 
dere Einflussfaktoren den Rückschluss auf die erklärende Variable verun- 
reinigen. Die Menge der aufgezeichneten Daten über einen vergangenen 
Lebensvorgang, die Korrelationsstudien zugrunde liegt, ist naturgemäß be- 
schränkt. Was sie beispielsweise fast nie enthält, sind Informationen dar- 
über, wie die Menschen, die zum Studienzeitpunkt in der beobachteten Si- 
tuation vorgefunden wurden, dorthin gekommen sind. Meistens entschei- 
den sie sich ja bewusst für oder gegen eine bestimmte Situation (self selec- 
tion). Falls beispielsweise kompetentere Vorstandsmitglieder gezielt Ar- 
beitgeber suchen, deren Aufsichtsratsvorsitzender ihnen persönlich nahe- 
steht, wäre die festgestellte Korrelation zwischen Vergütung und Leistung 
vielleicht sogar dann zu beobachten, wenn die Vergütung als solche keiner- 
lei Anreizwirkung entfaltete. 

Aus diesen Gründen beschränkt sich die Studie von Kaplan und Rauh zu 
Recht darauf, einen „starken Zusammenhang“ zwischen Vergütung und 
Leistung festzustellen, ohne etwas über die Richtung des Ursachenzusam- 
menhangs auszusagen.” 


” Börsch-Supan/Köke, Ger Econ Rev 2002, 295, 301: “Panel data are a necessary conditi- 
on for the identification of any singular corporate governance mechanism”. 

™ Devers/Cannella u.a., J Mgmt 2007, 1016, 1041: “compensation research is moving 
away from an emphasis on cross-sectional research and toward longitudinal and dynamic 
panel research.” 

7 Bortz/Döring, Forschungsmethoden 2006, 447 ff. m.w.N. zur Lehrliteratur. 

® Näher Diekmann, Sozialforschung 2012, 39 f., 64 f.; Legewie, KZfSS 2012, 123, 128. 

™ Vgl. Zitat oben Fn. 62; “pay-for-performance” deutet zwar eine Ursachenrichtung von 
Leistung zu Vergütung an, meint aber nur den “link” zwischen beiden Größen (Kaplan/Rauh, 
Rev Fin Stud 2010, 1004, 1044); ähnlich vorsichtig Rapp/Schaller/Wolff, DBW 2011, 311, 
327: „verzichten wir bewusst auf eine detaillierte Interpretation des Zusammenhangs [...] ak- 
tienkursbasierter Langfristanreize mit der vergangenen Performance.“ 
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b) Auswahlfehler (sample selection bias) 


Die eben angesprochene Selbstauswahl ist nur ein spezieller Fall einer all- 
gemeineren Beschränkung von Korrelationsstudien, nämlich ihrer nahezu 
unausweichlichen Verunreinigung durch Auswahlfehler. Gerade von den 
empirischen Studien zur corporate governance — zu denen auch diejenige 
von Kaplan und Rauh gehört — unterliegen „wahrscheinlich die meisten“ 
und jedenfalls „alle aus Deutschland“ solchen Fehlern.” Am häufigsten 
entstehen sie durch die Verwendung sog. Gelegenheits- oder Bequemlich- 
keitsstichproben (opportunity bzw. convenience sample), also der am ein- 
fachsten verfügbaren Daten. 

Da viele Daten überhaupt nur von börsennotierten Unternehmen offen- 
gelegt werden müssen (nicht zuletzt aufgrund der strengen deutschen Da- 
tenschutzvorschriften)”, sind Unternehmensdaten nicht gleichmäßig und 
auch nicht in gleicher Genauigkeit zugänglich. Selbst unter den börsenno- 
tierten Unternehmen gibt es noch deutliche Abstufungen,’’ daher untersu- 
chen Korrelationsstudien fast immer — Kaplan und Rauh machen keine 
Ausnahme — nur die größten oder erfolgreichsten börsennotierten Unter- 
nehmen, die in einem Auswahlindex zusammengefasst und deren Daten zu- 
verlässig publiziert sind. Gleichzeitig sind Größe und Erfolg aber immer 
entweder die zu erklärende Variable oder mit dieser Variable untrennbar 
verbunden — so auch im Fall der Vorstandsvergiitung.” Daher stellen Un- 
ternehmensgröße und -erfolg (sowie eine Vielzahl damit verbundener Ein- 
flussgrößen) stets Verunreinigungen dar, die Aussagen über Ursachenbezie- 
hungen grundsätzlich vereiteln. 

Zur konkreten Stichprobe von Kaplan und Rauh finden sich in einer 
späteren Studie Belege für systematische Unterschiede zwischen Unterneh- 
men aus der ExecuComp-Datenbank und anderen,” die den Ursachen- 
schluss verunreinigen könnten. Da hier aber die Kritik an der konkreten 


® Börsch-Supan/Köke, Ger Econ Rev 2002, 295, 305: “most studies of corporate gover- 
nance are likely to have a sample selection bias.” und weiter 306: “To our knowledge, all em- 
pirical studies on corporate governance in Germany suffer from the econometric problem of 
selection bias.” 

76 Darauf spielen auch Börsch-Supan/Köke, Ger Econ Rev 2002, 295, 307 an. 

” Vgl. Reiner, AG 2006, 93, 103: Die kostenlose Bereitstellung seiner Satzung unterließ 
„kein einziges DAX-Unternehmen, eine mäßige Zahl [8 %] der im MDAX und eine erschre- 
ckend hohe Zahl [24 %] der im SDAX vertretenen Gesellschaften“. 

8 Börsch-Supan/Köke, Ger Econ Rev 2002, 295, 305: “data on management compensati- 
on are available only for those firms which enacted compensation programs. But these enter- 
prises tend to be well-performing firms, often listed on the stock exchange.” 

” Cadman/Klasa/Matsunaga, Acc Rev 2010, 1511, 1542: “differences in contracting envi- 
ronments between ExecuComp and non-ExecuComp firms lead to differences in the structure 
of CEO incentive contracts [...] Researchers should use caution when generalizing results to 
firms that are not included in the ExecuComp data set.” 
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Studie weniger interessiert als die grundsätzliche methodische Beschrän- 
kung, genügt es festzuhalten, dass Erkenntnisse aus Korrelationsstudien 
grundsätzlich durch Auswahlfehler verunreinigt sein können, weil sie nur 
auf verfügbare Daten zurückgreifen können.“ Zugleich beschränken Aus- 
wahlfehler die Übertragbarkeit der Erkenntnisse auf Unternehmen außer- 
halb der Bequemlichkeitsstichprobe,®' wenngleich eine auf „DAX-Unter- 
nehmen zum aktuellen Zeitpunkt“ beschränkte Aussage natürlich auch ih- 
ren Wert haben mag. 


c) Spezifikationsfehler (missing variables) 


Empirische Hypothesen müssen spezifizieren, wie sich die abhängige Va- 
riable ändert, wenn sich die unabhängigen Variablen ändern (oben § 2 bei 
Fn. 87). Werden dabei entscheidende Variablen übersehen, liegt ein Spezi- 
fikationsfehler vor. Das anschaulichste Beispiel für dieses Problem ist das 
Yule-Simpson-Paradox,* das herkömmlich als „Simpson-Paradox“ be- 
kannt ist, wenngleich es nach seiner Entwicklungsgeschichte ,,Pearson— 
Yule-Kendall-Simpson-Paradox“ heißen sollte.” Seine berühmteste De- 
monstration stammt aus der Studienzulassungspraxis der Universität Ber- 
keley,** es taucht aber auch in anderen Zusammenhängen auf“ und kann 
sogar einen vermeintlich gesundheitsförderlichen Effekt des Rauchens be- 
legen.“ Vorliegend genügt ein vereinfachtes Beispiel: 

Stellen wir uns eine dichotome Welt vor, in der Vorstände nur entweder 
hoch oder niedrig bezahlt sein können und nur entweder Leistung bringen 
oder faulenzen (shirking) können. Nun beobachten wir 2.200 Vorstände, 
von denen die Hälfte hoch bezahlt und die Hälfte niedrig bezahlt ist. Von 
den 1.100 hoch Bezahlten bringen 610 Leistung, während 490 faulenzen, 
von den 1.100 niedrig Bezahlten bringen 390 Leistung, während 710 fau- 
lenzen. Alles deutet darauf hin, dass hohe Bezahlung leistungsförderlich 
ist: Nur 35 % der niedrig Bezahlten, aber ganze 55 % der hoch Bezahlten 
bringen Leistung. Bis jemand feststellt, dass es in unserer dichotomen Welt 
auch zwei verschiedene Branchen gibt: Automobil und Einzelhandel. 


#0 Börsch-Supan/Köke, Ger Econ Rev 2002, 295, 311: “we usually use data that were col- 
lected for other purposes and hence are incomplete for our means.” 

#! Vgl. schon oben § 2 bei Fn. 263 sowie Wheeler in: Cane/Kritzer, Hdb Empirical 2010, 
125, 147: “it seems that we know almost nothing about what occurs in firms that are not listed 
on the stock market”. 

2 Dazu Krämer, Denkste! 2011, 168 ff. mit Grafik auf 179. 

3 Good/Mittal, Ann Stat 1987, 694, 695. 

84 Bjckel/Hammel/O’Connell, Sci 1975, 398. 

85 Übersicht bei Ooi, Wharton Res Sch J 2004. 

8° Dubben/Beck-Bornholdt, Fehlinformation 2011, 232 m.Verw. auf Appleton/French/Van- 
derpump, Am Stat’n 1996, 340. 
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Nun betrachten wir diese beiden Bezahlung 
Branchen näher, und stellen fest: Von Per ak hast 
den 100 niedrig bezahlten Einzelhan- Teer aT 
delsvorständen faulenzen nur 10 %, von |N- niedrig EEC > |453% 
den 1.000 hoch Bezahlten dagegen |H-hoch (39 35%|< 55% «o 
40 %. Ähnliches beobachten wir in der = = 
Automobilbranche: von ihren 100 hoch N yaranomoiı | 70% < 90% ” 
bezahlten Vorständen faulenzen SOA Houa [500 30% > 10% w 
ganze 90 %, von den 1.000 niedrig Be- 
zahlten aber nur 70 %. Obwohl also ins- 
gesamt ein geringerer Anteil der hoch 
Bezahlten faulenzt, ist die Faulenzerquo- |H nurEinzenandei |90 90 % | > [60% soo 
te der hoch Bezahlten in beiden Bran- 
chen höher als die der niedrig Bezahlten! 
Der vermeintlich positive Vergütungsef- 
fekt im Aggregat resultiert einzig und al- 
lein aus dem unterschiedlichen Grundan- 
teil der hoch Bezahlten (über 90 % im 
Einzelhandel, unter 10 % in der Automo- 
bilbranche). 

Das Yule-Simpson-Paradox beschreibt eine eigenwillige, aber keines- 
wegs rein theoretische Situation.’ In Konstellationen mit zwei Einflussfak- 
toren, wie der eben skizzierten, ist schon nach dem Zufall in jeder sech- 
zigsten Situation mit einer solchen Umkehrung zu rechnen.** Die negativen 
Konsequenzen eines Spezifikationsfehlers beschränken sich aber nicht auf 
den Extremfall der Umkehrung. Vielmehr fehlt die dritte Voraussetzung für 
Ursachenschlüsse (oben bei Fn. 17) generell, wenn der Einfluss unbeob- 
achteter Störvariablen nicht ausgeschlossen werden kann.® Anders gewen- 
det: Das Yule-Simpson-Paradox entsteht, weil und wenn die Verteilung der 
vermeintlich erklärenden Variable (hier Vergütungshöhe) ihrerseits von ei- 
ner Störvariable bestimmt wird. Diese Störvariable war im obigen Beispiel 
die Branchenzugehörigkeit, die in der Realität wohl niemand übersehen 
dürfte, aber die gleiche Wirkung kann von jeder anderen Einflussgröße 
ausgehen, die in der formulierten Hypothese fehlt.” Die in Korrelationsstu- 
dien beobachteten Lebenssachverhalte sind viel zu komplex, um alle mög- 


10 400 
N Nur Einzelhandel 10 % < 40 % 


Illustration: Die Addition von Teil- 
werten (Kleindruck außen) kann 
prozentuale Trends (innen) völlig 
umkehren. (Prozentwerte geben hier 
das Verhältnis hoch und niedrig Be- 
zahlter in den sechs Kombinationen 
aus Bezahlung und Branche an.) 


3 Vgl. Wagner, Am Stat’n 1982, 46, 47: “Simpson’s paradox is not a contrived pedagogi- 
cal example. Because this situation occurs at the level of a purely descriptive data analysis, it 
can easily bewilder the statistically naive observer.” 

8 Pavlides/Perlman, Am Stat’n 2009, 226, 228: “prior probability of Simpson’s Paradox 
in a 2x2x2 table under the uniform prior is 0.0166 (correct to three significant figures).” 

® Börsch-Supan/Köke, Ger Econ Rev 2002, 295, 313; zum Begriff der Störvariable oben 
§ 2 bei Fn. 69. 


B. Beobachtung und Experiment 149 


lichen Einflussgrößen auch nur benennen, geschweige denn quantifizieren 
zu können.’' Deshalb wird bisweilen sogar bezweifelt, dass reine Beobach- 
tungsdaten mit den Methoden der Statistik überhaupt sinnvoll auswertbar 
sind.” 

Spezifikationsfehler gehören zu den größten Herausforderungen der be- 
obachtenden Forschung. Da schon denklogisch kein statistischer Test er- 
mitteln kann, welche Variablen übersehen wurden, lassen sich Spezifikati - 
onsfehler überhaupt nur durch die Berücksichtigung theoretischen Vorwis- 
sens minimieren.” Damit wächst für jede beobachtende Studie die Begrün- 
dungslast, weil sie im Prinzip alle in früheren Studien erkannten Einfluss- 
größen miterheben und berüriginals. One explanation 
could be that, although all ofthe originals are true transcripts of original speeches 
held in the European Parliament, some of the interventions had been prepared 
by the members of Parliament, and therefore typical spoken language features 
might not be as strong in the spoken originals. SI on the other hand is truly 
spontaneous spoken production. 


4.2 Written: Translation vs. originals 


Figures 5 and 6 show the characteristic features for the written mode. Here, the 
results are less clear and seem to be more language-dependent: translations seem 
to be more nominal using various determiners (German: der, die, des, den, seine, 
ihre, dieser, einer, diese, ihrer, einige, dies; English: this, that). The conjunctions 
jedoch and however as a written feature also rank high in translations while writ- 
ten originals use the less formal equivalents aber and but. Translations, therefore, 
tend to be more formal/more written concerning this feature than originals. This 
might be because the written originals have a spoken utterance as a basis and 
translators normalize to a written standard. For the other features, there does not 
seem to be a clear uniform trend, e.g. in German prepositions are characteristic 
for translations whereas, for English, prepositions are typical in originals but not 
in translations. 
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(a) Translation 
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ehr kolleginnen .... , 
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e 4 ‘es Wir hier und 


5 brauchen 


3.07 


| - nichtauchiiebe = 


schon ja das ist ^^" 


aber man ~ 
deswegen herren 
legen glaube 


einmal e DES en Aische 
karte úl dn 


(b) Written originals 


Figure 5: Variation in written mode: German translations vs. written 
originals. Relative frequency (RelF) is indicated by colour (high RelF 
red, low RelF blue), distinctivity is visualized by size. 
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(b) Written originals 


Figure 6: Variation in written mode: English translations vs. written 
originals. Relative frequency (RelF) is indicated by colour (high RelF 
red, low RelF blue), distinctivity is visualized by size. 
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4.3 Translationese vs. interpretese 


In this section, we attempt to tell apart purely translationese effects from purely 
interpretese effects. We take the perspective of TR (once against SI and once 
against written originals) for translationese (Figure 8) and the perspective of 
SI (against TR and spoken originals) for interpretese (Figure 7). If features are 
shown in both contrasts, they can be seen as distinctive of translationese and 
interpretese respectively. 

Overall, we can observe that the differences between the written and the spo- 
ken mode are greater than between SI or TR compared to the corresponding orig- 
inals: TR vs. SI show more distinctive items (shown in large font) while at the 
same time showing more highly frequent items (shown in red and orange) than 
any other comparison. All models comparing the written or the spoken mode 
exhibit many items with low distinctivity (shown in small font) and from lower 
frequency bands (shown in blue and green). 

At the same time, we can observe translationese and interpretese trends: The 
translation model when comparing with interpreting shows similar features as 
the translation model when comparing to written originals, although the signal 
is weaker for TR vs. written originals than for TR vs. SI (same as above: more 
highly frequent and highly distinctive features for the written-spoken contrast). 
The translationese/interpretese trends seem to be more pronounced in German. 
The corresponding English models show a similar but weaker trend. 


e job um 
x ic lancwirte britische aie " 
. Nnabenhat — iland 
WI dae” freue habenaber wee ES 3.07 
das hier iren 
es Uber Peuh” B 
' i daeu 
aberhum da"'s sietst als 
lso auchist Leeder v: 
ne Jetzt sektor gem 
sch x mal kiaia i 
hab nal etzte einfach 
Jut móchtensicherstellen 
(a) SI vs. TR (b) SI vs. ORG 


Figure 7: Variation in Interpreting: (a) Interpreting modeled on the 
basis of translation and (b) Interpreting modeled on the basis of spoken 
originals. Relative frequency (RelF) is indicated by colour (high RelF 
red, low RelF blue), distinctivity is visualized by size. 
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DCICILS err’ redierur 


unserer! rer britische ansicht irischen 


bai N) 


Sech ansicht urde dass Hand ies 
en: in oer sagte 
Sida ze E 

hades A au d si h die auf den far 
nes für die VON mit herrn von : 

dem ZU begrüfsekónigreich seine 

* britischen idi 
besteht vereinigten 

pa meiner parlaments darin aussprache e 

jenen gegen vergangenen schottland |... ratsvorsitz 
(a) TR vs. SI (b) TR vs. ORG 


Figure 8: Variation in Translations: (a) Translation modeled on the 
basis of interpreting and (b) translation modeled on the basis of written 
originals. Relative frequency (RelF) is indicated by colour (high RelF 
red, low RelF blue), distinctivity is visualized by size. 


5 Corpus analysis based on KLD findings 


We have shown that KLD-based analysis brings out intuitively relevant features 
of mediated discourse and the sometimes subtle distinctions between different 
types of mediated discourse. In this section, we use the most prominent features 
detected by KLD-based analysis for engineering more complex features as well 
as for testing them further by some aggregate measure commonly employed in 
comparative corpus analysis. 


5.1 KLD results in the context of traditional corpus measures 


The KLD analysis suggests different degrees of variation in lexical choice be- 
tween different production modes. Translations were shown to employ greater 
variation in lexical items whereas fewer words were typical for interpreting. To 
validate this observation, we employ traditional corpus analysis measures to com- 
pute the lexical variation for the different translation modes. For our results to be 
comparable regardless of corpus size, we compute the Standardised Type-Token 
Ratio (STTR). Table 2 shows lexical variation as STTR for the different cate- 
gories. Significant differences are confirmed by a t-test (EN: t = 36.755, df = 3, 
p = 4.429 x 107; DE: t = 25.299, df = 3, p = 0.0001354). For both languages, 
SI has the lowest lexical variation, followed by spoken originals. This result is 
in line with previous work which found SI to be less varied, more simplified 
compared to spoken originals. At the same time, both spoken modes are lexi- 
cally less varied compared to the written modes. Surprisingly, we observe the 
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opposite tendency for the written mode; TR shows a higher STTR ratio than 
written originals, especially for German. This further corroborates our KLD find- 
ings suggesting that translations overemphasize features of written mode (here: 
vocabulary variation). 


Table 2: Standardised type-token ratio. 


English ORGSPEN SIDEEN ORGWREN TRDEEN 
STTR 0.40 0.38 0.42 0.43 


German ORGSPDE SIENDE ORGWRDE TREN DE 
STTR 0.47 0.43 0.49 0.52 


The inspection of the KLD models (TR vs. SI) also showed a tendency for 
shorter words in interpreting overall. At the word level, a check of mean to- 
ken length reveals that SI tends towards using shorter words (see Table 3, EN: 
t = 99.46,df = 3, p = 2.241 x 10 $5; DE: t = 62.285, df = 3, p = 9.119 x 10 5). 
The median token length is the same for all modes in both languages, except 
for SI DE EN (3.0 for SI vs. 4.0 for all other modes). A preference for the use 
of shorter words is not observed for translations. Thus, we can see a tendency 
towards simplification in SI, but not in TR. 


Table 3: Average token length. 


English ORGSPEN SIDEEN ORGWREN TRDEEN 
mean token length 4.32 4.24 4.45 4.36 


median token length 4.0 3.0 4.0 4.0 
German ORGSPDE SIENDE ORGWRDE TRENDE 
mean token length 5.56 5.16 5.35 5.47 


median token length 4.0 4.0 4.0 4.0 


A further result from the KLD analysis was that the most typical items (highly 
distinctive and highly frequent words) signal specific choice preferences at the 
level of parts of speech (Pos). (Specific) function words appeared more distinc- 
tive for interpreting than for translations, which included more lexical words as 
distinctive (if at a low KLD and frequency level) compared to interpreting. Lex- 
ical density (amount of lexical words divided by the total number of words) is 
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commonly used to measure this contrast. Table 4 shows lexical density for the 
different categories (EN: t = 104.89, df = 3, p = 1.91 x 1075; DE: t = 74.007, df = 3, 
p = 5.437 x 109). For German, both SI and TR are lexically denser than compa- 
rable originals. For English, the trend is the opposite. However, as discussed in 
§2, lexical density often does not give a consistent trend. The method of relative 
entropy also picks up weaker signals in lexical choice. The contrast between the 
different modes does not seem to be the choice of lexical vs. content words, but 
rather the type of lexical item used as for example seen for SI using very general 
verbs. 


Table 4: Lexical density. 


English ORG SPEN SIDEEN ORGWREN TRDEEN 


lexical density 43.89 42.67 42.92 41.91 
German ORG SPDE SIENDE ORGWRDE TREN DE 
lexical density 47.36 47.90 45.09 47.50 


To get a better understanding, we look at the distributions of those parts-of- 
speech (pos) that were highlighted by the KLD analysis: nouns, pronouns, deter- 
miners (NOUN, PRON, DET: nominal categories); main verbs, auxiliary verbs and 
modals (VERB, AUX, MODAL: verbal categories); adpositions, conjunctions (ADP, 
CONJ: relational categories). In an overall comparison of all subcorpora for each 
target language, including SI and TR, spoken and written originals all show sta- 
tistically significant differences in the pos distribution by a chi-square test (DE: 
X? = 26662, df = 21, p < 2.2 x 10 16; EN: y? = 14266, df = 21, p < 22 x 10 16). 
Figure 9 plots the part-of-speech distributions in terms of relative frequencies 
(the y-axis shows percentages). 

The largest differences in the pos distributions are observed for the nominal 
(NOUN, PRON, DET) vs. the verbal classes (VERB, AUX, MODAL), where nominal 
classes are more prominent in the distributions of written texts, while verbal 
classes are for the spoken ones. Determiners are less frequently used in SI, and 
pronouns seem to be compensating for reduced use of nouns. As in previous 
works, we observe slightly different tendencies for the different languages. For 
English, the distributions show a more pronounced effect of spoken vs. written 
mode, since the distributions are similar for SI and spoken originals together 
(bars 1 and 2), and for TR and written originals together (bars 3 and 4). For Ger- 
man though, originals (spoken and written) seem to have a more similar dis- 
tribution to each other (bars 1 and 3) than to their translated and interpreted 
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equivalents. This might suggest stronger translationese and interpretese effects 
for German. This difference may be an effect of interference from the source 
language English, or related to linguistic prestige in mediation in the European 
Parliament. 

To gain more information on the structures associated with these Pos distri- 
butions, we further inspect selected syntactic patterns for nominal, verbal and 
relational categories. 


5.2 Nominal use 


Analysis by KLD showed various determiners as highly distinctive items for TR 
when compared to SI as well as compared to ORG. For German, this included 
words like der, die, den, des, dem which can also be used as relative pronouns. 
Pos analysis is necessary to determine the grammatical function of these words. 
Furthermore, more nouns and adjectives were seen as typical for translations. 
These features together hint at a more nominal style in TR. To verify this ob- 
servation, we investigate different noun patterns. When comparing the noun 
pattern distribution (Figure 10) it becomes clear that - although there is also a 
difference between the written and spoken modes - simultaneous interpreting 
behaves more differently than the other categories.’ 

For German, spoken and written originals behave similarly (no significant dif- 
ference),^ even though within the written and spoken modes significant differ- 
ences can be observed.? However, SI still prefers to opt for a more extensive use 
of pronouns whereas TR uses determiner-noun combinations instead.* 

The same comparison for English shows significant differences for all cate- 
gories,’ also showing that SI prefers the use of pronouns more than the other 
categories. 

Table 5 shows frequencies per million (fpm) for the different kinds of noun 
phrases and confirms that simultaneous interpreting clearly uses less complex 
patterns. The preference for short encodings is further corroborated by the fact 
that pronouns are most frequently used in the spoken mode, especially in simul- 
taneous interpreting. Longer determiner-noun combinations are less frequent in 


?DE: y? = 3269.4, df = 9, p< 2.2 x 10775; EN y? = 2022.6, df = 9, p < 2.2 x 10 6. 

“ORG SP DE vs. ORG WR DE: y? = 1.1987, df = 3, p = 0.7533. 

SORG SP DE vs. SI EN DE: y? = 248.73, df = 3, p < 2.2 x 10 75; ORG WR DE vs. TR EN DE: 
X? = 2625.8, df = 3, p < 2.2 x 10™*6. 

$SI EN DE vs. TR EN DE: y? = 912.86, df = 3, p < 2.2 x 105. 

TORG SP EN vs. ORG WR EN: y? = 314.39, df = 3, p < 2.2 x 10715; ORG SP EN vs. SI DE 
EN: y? = 248.73, df = 3, p < 2.2 x 1075; ORG WR EN vs. TR DE EN: Y? = 13812, df = 3, 
p «22x10 15; SIDE EN vs. TR DE EN: y? = 303.46, df = 3, p < 2.2 x 10 5. 
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Figure 9: pos distribution for selected pos for English and German. 
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Figure 10: Pattern distribution for PRON, DET+NOUN, DET+ADJ+NOUN 
and DET+ADJ+ADJ+NOUN. 
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SI than in all of the other modes. Both written modes prefer determiner-noun 
combinations rather than the use of pronouns. We also observe that the two 
written modes (original and translation) behave similarly whereas simultaneous 
interpreting stands out most. Original spoken can be placed in between (use of 
DET+NOUN combinations similar to the written modes, pronouns in between the 
frequency figures for SI and written). This might also be because some of the 
original spoken utterances are prepared and read out speeches in the European 
Parliament. Thus, for SI we can link this preference to simplification and may 
well assume that the preference for shorter encodings is a mechanism for reduc- 
ing processing effort. 


Table 5: Nominal patterns in fpm. 


English ORG SPEN SIDEEN ORGWREN TRDEEN 
PRON 68,352 65,502 48,822 53,924 
DET+NOUN 58,443 48,133 57,705 56,681 
DET+ADJ+NOUN 17,274 15,695 18,626 19,834 
DET+ADJ+ADJ+NOUN 1,434 1,256 1,512 1,581 
German ORG SPDE SIENDE ORGWRDE TREN DE 
PRON 80,055 95,553 77,979 74,600 
DET+NOUN 85,715 71,295 83,914 93,135 
DET+ADJ+NOUN 26,095 18,416 26,225 28,188 
DET+ADJ+ADJ+NOUN 1,653 909 1,592 1,818 


A more detailed observation of the most frequently used lexical types in the 
patterns reveals that SI seems to use more fixed, standardised phrases (e.g. eine 
wichtige Rolle (an important role)) that do not appear in spoken originals and only 
rarely in the written data, but quite frequently in SI). The few occurrences in SI 
of the most complex patterns considered here (DET+ADJ+ADJ+NOUN) seem to be 
mostly filled by short words and repeating the same adjective (the last few years/- 
months/weeks). At the semantic level, we also see a tendency towards general 
or collective nouns in SI. However, further analysis is necessary to confirm this 
trend quantitatively. 


5.3 Verbal use 


A further result of the KLD-based analysis was a distinctive difference in the use 
of verbs across the different categories. Therefore, we compare the use of ver- 
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bal pos categories for the different subcorpora. The distribution of main verbs, 
auxiliaries and modals shows significant differences between all modes for En- 
glish.? German originals in the written and spoken mode, again, show no signifi- 
cant difference in the use of verbal ros? whereas significant differences between 
other modes can be observed.!? The normalised frequency distribution (Table 6) 
confirms that the spoken modes use more verbs than written overall. SI espe- 
cially stands out by using verbs most frequently and therefore can be seen as 
being “more spoken than spoken”, in line with the findings of Shlesinger & Or- 
dan (2012). 


Table 6: Verbs in fpm. 


English ORGSPEN SIDEEN ORGWREN TRDEEN 


AUX 20,437 22,601 15,563 17,435 
MODAL 18,314 22,569 16,758 21,160 
VERB 144,393 142,321 133,571 129,944 
German ORGSPDE SIENDE ORGWRDE TRENDE 
AUX 48,868 53,317 45,680 42,250 
MODAL 15,711 19,842 14,390 14,877 


VERB 91,158 99,771 84,814 87,639 


5.4 Relational use: conjunctions 


One feature shown as typical for mediated discourse in both languages is the 
use of but and aber in SI and however and jedoch in TR. These conjunctions were 
shown characteristic for the respective modes when comparing SI to TR, but also 
- with only one exception for English interpreting - characteristic for SI and TR 
when comparing to spoken and written originals. 

The distribution for the use of these conjunctions (Figure 11) and Fisher’s exact 
test (due to scarce data points in the spoken data) partly confirm the observation 
made in the KLD analysis: In the spoken modes, there is no significant difference 


SORG SP EN vs. ORG WR EN: yx? = 48.11, df = 2, p = 3.572 x 10 !; ORG SP EN vs. SI DE 
EN: y? = 34.381, df = 2, p = 3.422 x 105; ORG WR EN vs. TR DE EN: yx? = 5318.5, df = 2, 
p < 2.2 x 107'®; SI DE EN vs. TR DE EN: y? = 37.131, df = 2, p = 8.65 x 10°. 

°ORG SP DE vs. ORG WR DE: y? = 0.29177, df = 2, p = 0.8643. 

ORG SP DE vs. SI EN DE: y? = 9.9219, df = 2, p = 0.007006; ORG WR DE vs. TR EN DE: 
X? = 1030.4, df = 2, p < 2.2x10 ^! 5; SI EN DE vs. TR EN DE: y? = 38.291, df = 2, p = 4.843x10 ?. 
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in the use of these conjunctions.!! However, translations clearly prefer to use the 
more formal conjunction however/jedoch.? This can be seen as normalisation 
into written mode for translation whereas we might see some spoken influence 
in the written originals. 


Table 7: aber/jedoch and but/however in fpm. 


English ORGSPEN SIDEEN ORGWREN TRDEEN 


but 5299 4701 2614 2806 
however 281 386 221 584 
German ORGSPDE SIENDE ORGWRDE TRENDE 
aber 4057 6214 2796 1773 


jedoch 67 65 320 979 


See some examples in (1) from translation and interpreting with their respec- 
tive originals. The simultaneous interpretation into English keeps but as equiva- 
lent to the German aber in the source, while the English translation opts for the 
more formal however from original aber. 


(1) a. ORG SP DE: “... es ist gut dass wir ihn haben / aber er soll eben 
Maßnahmen regeln die...” 


b. SIDE EN: “...it is very good that we have it / but its rule should apply 


to... 

c. ORG WR DE: “...es ist gut, dass wir ihn haben. Aber er soll eben 
Maßnahmen regeln, die...” 
TR DE EN: “...it is good that we have it. However, its rules should 


apply to ..” 


6 Conclusion and outlook 


We have presented a data-driven, exploratory method to analyse the typical lin- 
guistic features of the modes of communication in a mediated, multilingual set- 
ting such as the European Parliament (written vs. spoken originals, translation vs. 


"ORG SP EN vs. SI DE EN: p = 0.1627; ORG SP DE vs. SI EN DE: p = 0.7176. 
2ORG WR EN vs. TR DE EN: p < 22x 10776, ORG WR DE vs. TR EN DE: p < 2.2 x 106, 
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B however 


B but 


ORG SP EN SI DE EN ORG WREN TR DE EN 
(a) English 


B jedoch 
B aber 


ORG SP DE SI EN DE ORG WR DE TR EN DE 
(b) German 


Figure 11: Distribution of but/however and aber/jedoch. 
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interpreting). Focusing on the language pairs English and German, we have revis- 
ited the question of the distinctive properties of mediated discourse, i.e. transla- 
tion and interpreting. Using computational language models combined with the 
information-theoretic measure of relative entropy (here: Kullback-Leibler Diver- 
gence), we have shown how to detect and assess features indicating major differ- 
ences between the different modes in a data-driven way (§4). In a second step, the 
words found to be distinctive by KLD modeling have been related to known mea- 
sures of corpus comparison such as type-token ratio as an indicator of vocabulary 
variation and used as a basis for engineering more abstract and more complex 
features for further analysis (parts-of-speech, grammatical patterns (§5)). 

Comparing translation and interpreting (including the relation to their origi- 
nals), we confirm the previously observed trend of written vs. spoken mode being 
strongly reflected in translated and interpreted texts. Several aspects of our anal- 
yses for the language pair German and English confirm Shlesinger & Ordan’s 
(2012) earlier observation that interpreting is strongly characterised by general 
spoken language features and that it is not merely a different mode of translation. 
We also detected more subtle features typical of interpreting, e.g. a preference for 
syntactic coordination or the tendency to use general verbs, as well as differences 
between English and German interpreted texts, e.g. a pronounced use of deictic 
expressions in German. Some of the observed features and the subsequently per- 
formed linguistic analysis may be linked to traditional translationese features 
(e.g. simplification on the lexical level for SI) but often with different trends for 
interpreting and translation. Our analyses show that translation overemphasizes 
features associated with written mode, while interpreting tends to be “more spo- 
ken” and conceptually oral than comparable originals. 

In our future work, we plan to investigate other linguistic levels, notably the 
morphological, semantic and the phonetic level. Word-internal structures and 
other aspects of morphology should shed light on the degree of term variation 
and consistency in mediated vs. non-mediated discourse. Variants, for instance, 
are probably found more typically in original texts, whereas we expect to see 
a higher degree of formulaicity in translations. Original texts, translations and 
interpreted language might make use of particular patterns indispensable for 
language economy in different ways. They might differ, for instance, in usage 
preferences for acronyms of complex terminological units with the aim to re- 
duce articulatory or memory efforts. To better understand the mechanisms un- 
derlying lexico-semantic choice in translation and interpreting, we apply word 
embedding models (Bizzoni & Teich 2019); and to better understand the phonetic 
side of interpreting output we would also like to examine the different types of 
hesitations and pauses produced by interpreters and find correlations with indi- 
cators of processing effort such as entropy and surprisal. 
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Chapter 8 


NLP-enhanced shift analysis of named 
entities in an English<>Spanish 
intermodal corpus of European petitions 


Gloria Corpas Pastor* & Fernando Sanchez Rodas* 
*University of Malaga 


This chapter aims at presenting an NLP-enhanced corpus-based analysis of the 
translation and interpreting shifts observed in the named entities (NEs) of PETI- 
MOD, an English<>Spanish intermodal corpus of written and oral mediated texts 
from the Committee on Petitions of the European Parliament. Our main assump- 
tion is that shifts in institutional genres mostly occur in the transfer of NEs, and 
that NLP techniques such as automatic Named Entity Recognition (NER) can be 
applied to systematically extract and compare examples of these shifts, leading to 
the (possible) verification of translational and/or interpretational constraints. Re- 
sults show that traits like normalisation, transformation and simplification depend 
not only on the language direction or the mediation mode, but also on the semantic 
category (person, organisation, etc.) of the NE involved. Further studies are needed 
in order to correlate observed shifts with different NE taxonomies. 


1 Introduction 


To the present day, a considerable amount of corpus-based research in transla- 
tion and interpreting has relied on the European Parliament (EP) as a main or 
only source. Among the European Union (EU) institutions, the Parliament pro- 
vides an open access repository of both official documents and speeches in a wide 
range of languages and topics. Before the appearance of intermodal corpora such 
as EPTIC (Bernardini et al. 2016), the EP had already been used as a source for 
building translation corpora, e.g., Europarl (Koehn 2005), the European Parlia- 
mentary Comparable and Parallel Corpora, or ECPC (Martinez & Serrat 2012), 
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| European Parliament: Empirical investigations, 219-251. Berlin: Language Science Press. 
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and the EU resources at Sketch Engine (Baisa et al. 2016). In the field of corpus- 
based interpreting studies, it was early pointed out that EP linguistic material 
could provide researchers with numerous advantages (Bendazzoli 2010). The Eu- 
ropean Parliament Interpreting Corpus (EPIC) is an example of this (Russo et al. 
2012). However, researchers have not yet attended the call. In spite of their un- 
questionable relevance and high-level complexity, legislative chambers have not 
received that much attention from linguistics until very recently (Calzada-Pérez 
2017).! Bibliometric analyses of Europarl (one of the largest multilingual corpora 
available) show that it has hardly been used in translation studies (Ustaszewski 
2019)? Reasons for this little academic interest may include corpora distribu- 
tion in a format that largely disregards the needs of translation research and 
practice (ibid.) and the need for unexplored, more down-to-earth studies which 
empirically look at the compared properties of source texts, translations and in- 
terpretations and offer a modern, technology-based twist on the methodologies 
involved. 

Against this background, we hypothesise that texts and speeches which orig- 
inated in the Committee on Petitions of the European Parliament provide an 
excellent source for the observation of shifts in institutional translation and inter- 
preting, and that shifts in these genres are mostly given in the transfer of Named 
Entities (NEs). We also assume that recent techniques based on Natural Language 
Processing (NLP) can be applied to the recognition, extraction and comparison 
of segments with NEs in two languages and/or modes, as a systematic way of 
observing shifts between them and proving (or not) the existence of translation 
and interpreting universals in the analysed texts. To this end, our main research 
objectives are as follows: 


e compile an intermodal, bidirectional corpus (English<>Spanish) of transla- 
tions and interpretations (plus their different, corresponding source texts) 
of suitable genres from the EP Committee on Petitions; 


e apply NLP-based techniques (Named Entity Recognition) on the said cor- 
pus in order to extract relevant units for the study of shifts in both lan- 
guages and modes; 


¡See Veroz González (2014a,b, 2017) and Prieto Ramos (2019) for examples of corpus-based dis- 
cursive and/or linguistic analysis in this field. 

“In order to make the wealth of linguistic data easily and readily available to the translation 
studies community, a toolkit named EuroparlExtract has been recently developed (Ustaszewski 
2019). 
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e compare qualitatively and quantitatively the observed shifts in the English- 
Spanish translations and Spanish-English interpretations of the Commit- 
tee; 


* draw conclusions on the relation of three different parameters (language, 
mode, and semantic category of the NEs) with the presence of translation 
and interpreting universal features in the analysed documents, especially 
of simplification traits. 


In connection with the objectives above, the chapter presents the following 
structure. After this introduction (81), 82 covers basic notions related to commu- 
nications in the Committee on Petitions. $3 describes the PETIMOD corpus, with 
a special focus on data collection and design criteria. The NLP-based methodol- 
ogy deployed in this study is spelled out in 84; the main findings are presented 
in $5 and then discussed in detail (86). After considering some limitations of our 
study, 87 offers some concluding remarks on the implications of intermodal cor- 
pora for research in translation and interpreting, with special reference to shifts, 
mediation types and functions, among other relevant issues. 


2 A brief overview of EU Petitions 


The right to petition is set out in the European legislation. Article 44 of the Char- 
ter of Fundamental Rights of the European Union ensures the right to petition 
to the European Parliament. And Article 227 of the Treaty on the Functioning 
of the European Union states that "any citizen of the Union, and any natural 
or legal person residing or having its registered office in a Member State" shall 
have the right to address a petition to the European Parliament (European Union 
2012). A petition may "take the form of a complaint, a request or an observation 
concerning problems related to the application of EU law or an appeal to the Eu- 
ropean Parliament to adopt a position on a specific matter" (European Parliament 
2020b). After submission, original petitions are registered and given a number. 
Then, they are summarised (normally in English) and submitted to the members 
of the Committee on Petitions of the European Parliament for a decision on ad- 
missibility and follow-up (ibid.). This committee serves a core function within 
the governance of the Union, as it acts "as a bridge between Europeans and the 
EU institutions” (European Parliament 20202). 

As the Committee on Petitions plays an important, mediating role in the con- 
text of a multilingual institution and society such as the EU, translation and in- 
terpreting are especially relevant in assuring the transparency of its communi- 
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cations. Petition summaries are translated and published in all official EU lan- 
guages on the Petitions Portal of the European Parliament right after a decision 
on admissibility has been taken (European Parliament 2020b)? The speeches 
of the committee meetings are also interpreted into each official language and 
published in the Webstreaming section of the European Parliament Committees 
website.* 

As petitions are institutional texts, translators and interpreters have to deal 
with an important amount of terminology. As Goffin (1994: 637-638) states, the 
language used in the EU texts, or eurolect, is no different in origin, semantic orga- 
nization or morpho-syntactic characteristics from any other specialized dialect. 
Depending on the concept they represent, EU terms are classified as euronymes, 
ie. terms coined for new institutional realities, or hétérolexies, i.e. terms which 
convey notions and designations rooted in a given official EU language (Goffin 
1994: 641). 

This classification indicates a prominence highly culture-bound of entities in 
this knowledge field. Entities are abstractions from external experience which 
are perceived as self-defined, that is, independent from each other in time and 
space (e.g. Dolors Montserrat, Bulgaria). Born out of quite specific worldly ex- 
periences, some entities pose a real challenge for translators and interpreters 
(Mayoral 1999). This is especially true for institutional references, like the Span- 
ish Civil Guard, which are usually related to the political life of a society (Martin 
1997; Ortega 2002). In the Committee on Petitions, where citizens and platforms 
strive to expose national problems and petitions are chosen by Members of the 
European Parliament (MEPs) on the basis of their political relevance, it is highly 
important to give these relevant entities a name (see §4). 


3 The PETIMOD Corpus 


The purpose of our compilation was to create an intermodal corpus of EU peti- 
tions suitable for the study of shifts in translated and interpreted NEs. The size 
of the corpus was initially limited to one month of institutional activity, and its 
medium written (see expanded size data in §3.2). The authorship of the docu- 
ments was exclusively institutional and the topics were mostly agricultural and 


?In fact, petitions are one of the most frequent briefings for the translation trainees of the EP 
Schuman Traineeships (https://ep-stages.gestmax.eu/website/homepage). 

*https://www.europarl.europa.eu/committees/es/peti/meetings/webstreaming. 

°Examples of the two categories extracted from our named-entity recognition would be “Euro- 
barometer” (euronyme) and “Boletín Oficial” (hétérolexie). 
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environmental, which was not determined by our sampling schema but given 
by the inherent frequency of the petitions. The publication date was a relevant 
criterion for the context of this research. As the elaboration of the paper ran par- 
allel to the coronavirus crisis, a cancellation of the Committee activity and/or 
a change in the content of petitions was predicted. Therefore, the last Commit- 
tee meeting before the health crisis (19% and 20'? February 2020) was chosen as 
the main source of material. Finally, the languages of the corpus were Spanish 
and English in their institutional or EU varieties (for a fully-fledged study on 
eurolects, see Mori 2018). 


3.1 Data collection 


The retrieval, storing, and conversion of materials started with the oral transcrip- 
tions. First, the audiovisual material for the meeting was accessed via the Web- 
streaming section of the EP Committees site. Three sessions were available for 
this debate: two on 19 February 2020 (morning? and afternoon’ sessions) and one 
on 20 February (morning® session). We downloaded the complete recordings for 
both Spanish and English, obtaining six video files in high quality (HQ) .mp4 for- 
mat.’ These were moved into a folder structure and coded with the date and time 
of each session plus the corresponding language abbreviation (e. g. “19feb1000_- 
EN.mp4”). The duration of each recording is indicated in Table 1. 

For cost and ease-of-use reasons, YouTube was the selected application for fur- 
ther ASR (Automatic Speech Recognition) and ATT (Automatic Text Transcrip- 
tion).? The upload of the files was performed with a personal account in pri- 
vate visualisation mode to avoid copyright issues. The automatic transcription 
(without time marking) was generated, then copied and pasted in different TXT 


Shttps://multimedia.europarl.europa.eu/es/peti-committee-meeting_20200219-0900- 
COMMITTEE-PETI_vd. 

"https: //multimedia.europarl.europa.eu/es/peti-committee-meeting_20200219-1430- 
COMMITTEE-PETI_vd. 

*https://multimedia.europarl.europa.eu/es/peti-committee-meeting 20200220-0930- 
COMMITTEE-PETI vd. 

? Audio tracks are available for the original speeches and the interpretations into any official 
EU language, although only one version can be downloaded at once. Download is performed 
through a request system which allows for choosing between the complete session and a se- 
lected part, and also between different video qualities. After this, a download link is sent to the 
desired email account. Downloading high-quality videos was the less time-consuming option 
in the long term, since low and medium quality videos had to be re-downloaded because of 
visualization problems. This is a relevant point, as videos are quite helpful for identifying the 
speakers in each petition. 

See Gaber et al.’s (2020) assessment of ASR systems for corpus compilation in interpreting. 
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Table 1: Properties of the audiovisual files used for automatic transcrip- 


tion. 
File(s) name(s) Length (hour, minutes and seconds) 
19feb1000_EN.mp4 02:10:19 


19feb1000_ES.mp4 


19feb1430_EN.mp4 03:14:43 
19feb1430_ES.mp4 


20feb900_EN.mp4 02:32:24 
20feb900_ES.mp4 


files, one for each intervention of the speakers. The naming pattern explained 
before was used, but three additional references were included for better locali- 
sation and connection with the petitions: intervention number, key word/expres- 
sion related to the topic, and surname of the MEP/speaker (e.g. “19feb1430_17_- 
ES_oranges_Rego.txt”). In the case of interpretations, the speech’s original lan- 
guage was indicated between brackets with the mark “or-”, as in this example: 
"19feb1430 78 EN(or-ES) radioactivewaste Montserrat.txt". 

Finally, the transcriptions were double-checked manually. In a first round, the 
EPTIC conventions for transcribing interpretations (Bernardini et al. 2018: 26- 
27) were applied. In a second revision, the Spanish and English versions of the 
EU Interinstitutional Style Guide, or ISG (European Union 2021), were used for 
spelling and capitalisation, together with other resources, such as the English 
Style Guide from the European Commission's Directorate-General of Transla- 
tion! and the Fowlers’ Dictionary of Modern English Usage (Butterfield 2015). Al- 
though the complete six videos in Table 1 were uploaded to YouTube and their 
transcriptions extracted in different TXT files, the only material revised manu- 
ally and included in the transcribed component of the corpus was the one from 
the second session (19% February 2020 14:30-17:30). This was decided because 
the manual revision of all data was considered too time-consuming for the scope 
of this chapter. Additional reasons were that it was the longest session, and it 
contained the largest number of original Spanish speeches, which was in line 
with our goal of building a bidirectional corpus. As a result of this revision, we 
obtained 80 transcripts (40 transcriptions of original Spanish interventions and 


Hhttps://ec.europa.eu/info/sites/info/files/styleguide english det en.pdf. 
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their corresponding 40 interpretations into English, with 18,152 and 10,530 words 
respectively). 

A similar procedure was followed in the case of written documents. The No- 
tices to Members were accessed through the eMeeting portal? of the European 
Parliament. We did not only look for the petitions mentioned in the revised ses- 
sion (Oh February 14:30), but for the ones debated in the other two sessions as 
well, as this was a much quicker way of building our corpus. We browsed and 
downloaded the petitions in English and Spanish in PDF format. When possible, 
we included all the other accessible PDF documents which were not petitions 
but were also handled in the debates, such as reports and opinions. This was 
done for the sake of coherence and terminological relevance. Similarly to the 
transcriptions, these files were organised in a folder structure and renamed us- 
ing a coding system with date and time of the meeting, language abbreviation 
and key word/expression related to the topic (e.g. “19feb1430_EN_oranges.pdf”, 
"20feb900 EN insects.pdf"). In the case of translations, the document's original 
language was indicated between brackets with the mark “or-”, as in this exam- 
ple: “19feb1000_ES(or-EN)_amendment.pdf”. Finally, the documents were saved 
as plain text (TXT) files with UTF-8 encoding for correct character recognition 
by any corpus software. 


3.2 Design criteria 


PETIMOD is a parallel intermodal corpus which contains citizens' petitions and 
other documents related to the Committee on Petitions of the European Parlia- 
ment, as well as transcribed speeches related to these documents. It comprises 
two subcorpora, allowing for various types of comparison to be carried out: PETI- 
MOD ORIG (original texts and speeches in English and Spanish) and PETIMOD - 
MEDIATED (their corresponding translations and interpretations from English 
into Spanish, and vice versa). At the same time, PETIMOD is a bidirectional cor- 
pus (Olohan 2004) because the mediating activity is not only represented in B-A 
direction (Spanish speeches interpreted into English), but also A-B (English doc- 
uments translated into Spanish). Finally, it is important to recall that, in contrast 
to other intermodal corpora in the field (cf. the works on EPTIC), PETIMOD 
comprises translations and interpretations (texts and speeches) that belong to 
different genres, the first being mostly Notices to Members and the second being 
interventions of said MEPs and speakers invited to the Committee on Petitions' 
sessions held in Brussels monthly. 


Phttps://emeeting.europarl.europa.eu/emeeting/committee/agenda/202002/PETI?meeting- 
PETI-2020-0219 1P&session-02-19-10-00. 
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Specifically, the corpus consists of all the petitions discussed during the three 
sessions of February 2020, whereas the original Spanish speeches and their En- 
glish interpretations were extracted from a single session (19'* February 2020 
14:30-17:30), as explained in 83.1. In order to diversify our corpus and investigate 
further correspondences, some non-petitional public documents discussed in the 
sessions, such as reports or opinions, were also included. 

According to classical typological parameters (Corpas Pastor 2001; Olohan 
2004; Shlesinger 2008), the PETIMOD corpus can be classified as follows: 


it is parallel, as it is composed of original texts (and speeches) plus their 
translations (and interpretations). 


Itis intermodal, as it encompasses original, translated, and interpreted com- 
ponents which can be compared to each other in a three-way fashion. 


It is written, as it contains official documents (PDF and TXT) as well as 
transcriptions of parliamentary speeches (TXT). 


e It is bidirectional, as it comprises English documents translated into Span- 
ish (A-B), and also of Spanish speeches interpreted into English (B-A). 


The size ofthe PETIMOD corpus is provided in Table 2 and Table 3 (in total, per 
component and per language). The total number of documents, running words 
(tokens) and word types (types) were calculated using ReCor.P? 


Table 2: PETIMOD size per component. 


Counts Petimod orig  Petimod mediated Total 
Tokens 59,270 65,038 124,308 
Types 6,523 6,622 13,145 
Documents 59 59 118 


Figure 1 provides a visual representation of the composition of our intermodal 
corpus, in which the double arrows represent the (ordered) envisaged compar- 
isons for analysis (A). In this study, the selected comparisons are As and As. 
As can be seen, cross-comparison of As and Ag presents differences not only in 
directions (EN<>ES), but also different language families in terms of origins (An- 
glosaxon and Romance), different modes (written and oral) and different types 


Shttp://www.lexytrad.es/en/resources/recor- 3/. 
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Table 3: PETIMOD size per language and component. 


Counts Petimod Petimod Petimod Petimod 

orig_en orig es mediated es _ mediated en 
Tokens 46,625 12,645 54,295 10,743 
Types 4,072 2,451 5,012 1,610 
Documents 19 40 19 40 


of linguistic mediation (translation and interpreting). This is a conscious choice, 
which aims at raising awareness of the multifactorial nature of translation and 
interpreting phenomena (cf. De Sutter & Lefer 2020), but also at trying to estab- 
lish generalisations between the two communicative situations by looking at a 
possible core set of shared factors given by the function of the institution for 


which they are produced, that is, the Committee on Petitions.* 
Corpus PETIMOD 
Subcorpus 1 Subcorpus 2 
PETMOD ORIG PETIMOD MEDIATED 
I I 
Comp 1: A Compl: 
PETIMOD ORIG EN K : x PETIMOD MEDIATED ES 
(19 texts in English) (19 translations into Spanish) 
Ag. AD 
T As A6 + 
Comp 2: A Comp2: 
PETIMOD_ORIG_ES : x  PETIMOD MEDIATED EN 
(40 speeches in Spanish) (40 interpretations into English) 


Figure 1: PETIMOD subcorpora and envisaged comparisons. 


“Cf. Saldanha 2009 for discussion on the bridging role of “function” and “context” in linguistic 
approaches to translation and interpreting. 
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4 Methodology 


In order to study shifts in translated speeches and interpretations, we have fo- 
cussed on NEs and extraction techniques. Named entity recognition (NER) is the 
task of identifying and categorising key information or real-world objects (enti- 
ties) in text. In NLP, a NE is a real-world “object” that is assigned a name (e.g., 
Donald Trump, United States, The Foreign Office, World Health Organisation, etc.). 

For this study both automatic and manual extraction of NEs were performed. 
Both precision and recall were calculated in order to assess the system’s per- 
formance. Then, a corpus-based study of NEs in the translated and interpreted 
components was carried out. 


4.1 Automatic named entity recognition 


Similarly to other models trained on a Wikipedia-based corpus (Nothman et al. 
2013), for this paper we have used the VIP? NER annotation scheme, that distin- 
guishes four entity types: PER (named person or family), Loc (name of politically 
or geographically defined locations, e.g., cities, countries, regions, rivers, lakes, 
seas, mountains), ORG (named corporate, governmental or other organisational 
entities) and misc (miscellaneous entities, e.g., laws, events, languages, products, 
work of art, etc.). In order to extract and identify NEs automatically, a script! 
has been programmed based on the VIP module for NE chunking, extraction, 
and identification. See Figure 2 for a screenshot of the Excel file generated by the 
script. 

VIP integrates spaCy (a free open-source library in Python). VIP provides a 
user-friendly interface and allows importing NEs into an Excel file. Pre-trained 
spaCy models rather than custom-made NER models were used. The two pre- 
trained spaCy models used - es core news lg (Spanish) and en core web lg 
(English) - differ in the degree of granularity of the NER annotation scheme. The 
Spanish model recognises four categories (PER, LOC, ORG and MISC), whereas the 
English model recognises twelve additional types of entities: ORDINAL (e.g., t, sec- 
ond), DATE (13 October, 2019), GPE (countries, cities and states, e.g., Madrid), CAR- 
DINAL (102, 67.5), NORP (nationalities, religious or political groups, e.g. Democrats), 


SVIP (Voice-text integrated system for InterPreters) is a hub of online resources and computer- 
assisted tools for interpreters created by the research group Lexytrad of the University of 
Malaga. VIP includes a suit of interpreting-related tools with a NER module and its own anno- 
tation scheme. The platform can be accessed here: http://www .lexytrad.es/VIP/index en.php. 

15 Authors would like to express their gratitude to Mr Francisco Javier Lima for writing the script 
used in this paper, which has been integrated in the VIP NER functionality. 

https://spacy.io/. 
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Loc MISC 
96/29//Euratom Aachen (Electoral Act 
Aguilar Aarhus -now -Article 11 

4 Aguilera Him Acoset Wi 
Aigües de Barcelona 20.12.2013 Annex H // fifty cents 
Alejandro Blasco Sánchez 2003/30/EC Arenales of San Pedro del Pinatar 11/18 
Alexander Edberg Thorén 2004/18/EC Arenales of San Pedro del Pinatar 7/9 
Ana Martinez 28.03.1987 Austria 28 
9 Angel Dzhambazki 04.3.2006 
Arianna Colonello 0956/2016 
Arias Cafiete 1 
2 Article 32(1 1January 2012 
Article ?(1)(c 1January 2013 
4 Article 8b(2 AGRI 1 January 2014 
5 Article XXIII(6 AM\1197535EN.docx 1 January 2019 
6 Auken Admissibility Bruxelles 1 July 2019 
B.K Aigües de Barcelona Bulgaria 1See 
B.E Artificial Intelligence (Al Cartagena H 
Bond Beter Assembly Craiova 11 
0 Catherine the Great BORM Croatia 12 
Christel Schlebusch Barcelona Metropolitan Area Cyprus 13 


2 Cristina Maestre Martín De Almagro 
Curtis 
24 Curtis-Teixeiro 


Bioenergy 
CAP 
CERMI 


Danube 


Decreto 


Denmark 


14 
15 
10 


Figure 2: English NEs file automatically retrieved by the VIP script. 


FAC (buildings, airports, highways, bridges, etc., e.g. Golden Gate), PERCENT (per- 
centage, including %), PRODUCT (objects, vehicle, foods, etc., e.g. Toyota), Law 
(laws, directives, regulations, etc.), QUANTITY (measurements of weight, distance, 
etc., e.g., hectare), MONEY (e.g., cents, dollars), TIME (times smaller than a day), 
and LANGUAGE (e.g., Spanish). For this reason, English categories have been sim- 
plified. Thus, akin to the Spanish model, Fac and GPE have been subsumed under 
the category Loc and the rest have been grouped under misc. 

Precision has been calculated to measure how well our NER system performs. 
Precision is defined as the fraction of relevant instances among all retrieved in- 
stances, i.e. the total number of relevant NEs retrieved divided by the number of 
all NEs retrieved (correctly and incorrectly identified by the model). 


Relevant NEs = Total number of correctly retrieved NEs — Errors 


Relevant NEs 


Precision — ———— — — —7 —————— 
Total number of extracted NEs 


For calculating the above formula, it was necessary to manually assign the 
retrieved NEs to three categories: (a) segments which were correctly identified 
as NEs (“Correct ID"), (b) segments wrongly identified as NEs (“Wrong ID"), (c) 
and segments correctly identified as NEs but wrongly labelled (“Wrong Class"). 

NER performance has been calculated in terms of precision for both languages. 
Two levels of analysis have been established. The first level takes all NEs cor- 
rectly identified as relevant, irrespective of their classification. For instance, the 
non-entity sequence [Articles 20(2)(b], retrieved as NE by the system, would be 
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classified as an error, whereas the retrieved sequence [2004/18/EC] would be con- 
sidered as relevant (correctly identified) whether it has been tagged correctly 
(MISC) or not (ORG). The mathematical formula for Level 1 is as follows: 


(Correct ID + Wrong Class) 


Precision = —————— ————————————— 
(Correct ID + Wrong ID + Wrong Class) 


Table 4 presents results for this wider category of relevant NEs. 


Table 4: NER performance in terms of precision (Correct ID + Wrong 


Class). 

English Spanish 
NEs retrieved 1,726 1,183 
Correct identification 1042 456 
Wrong identification 522 576 
Wrong class 162 151 
Errors 684 727 
Relevant NEs retrieved 1204 607 
Precision 0.697 0.513 


A further level of analysis is achieved by discriminating between NEs correctly 
identified and correctly tagged (for instance, [2004/18/EC] correctly identified as 
NE and classified as Misc) and NEs correctly identified but wrongly tagged (for 
instance NE [2004/18/EC] classified as ORG). The formula below allows refining 
results by considering wrong-labelled NEs as errors (see Table 5). 


(Correct ID) 


Precision = = 
(Correct ID + Wrong ID + Wrong Class) 


4.2 Manual named entity extraction 


In order to assess the performance of the system in terms of recall, it was nec- 
essary to identify and extract NEs manually for both languages. Recall is the 
fraction of retrieved instances among all relevant instances, i.e. it refers to the 
total number of relevant NEs retrieved versus the total number of relevant NEs 
found manually in our corpora. The idea was to delve into word lists generated 
by a corpus management tool, so we could identify NEs in the documents that 
had not been automatically recognised by our system. The sum of both types 
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Table 5: NER performance in terms of precision (Correct ID). 


English Spanish 


NEs retrieved 1,726 1,183 
Correct identification 1042 456 
Wrong identification 522 576 
Wrong class 162 151 
Errors 522 576 
Relevant NEs retrieved 1,042 456 
Precision 0.603 0.385 


of NEs (automatically recognised and manually extracted) would bring the total 
number of relevant NEs in the corpus. The formula used to calculate recall is 
presented below: 


Relevant NEs extracted 


Recall -.——— —— ———————————— 
Total number of relevant NEs in the corpus 


The selected corpus management platform was Sketch Engine, the same tool 
used for corpus statistics in $3.1. Sketch Engine was chosen for two reasons: it 
features European Parliament corpora (Ustaszewski 2019) and its interface allows 
for swift change when working with several subcorpora simultaneously. We up- 
loaded the plain-text files for each of the four components of our intermodal cor- 
pus as four different monolingual comparable corpora, using the "New Corpus" 
functionality in the menu “Select Corpus > My Corpora”. 

Then, a starting point for manual NER was the wordlist generator of Sketch 
Engine, which was used in each component. We chose to compose a list of nouns 
filtered by two stopword lists (one for each language).? In Sketch Engine, this can 
be done in the "Advanced" tab of the wordlist menu, under the heading "Exclude 
these words”; the list has to be pasted manually, with one word per line. The 
PETIMOD MEDIATED EN subcorpus, for example, yielded a list of 643 nouns 
(e.g., Commission, situation, petitioner, problem, etc.). 

Once the wordlist was generated (Wordlist 1), we had a basic frequency list 
which contained some nouns that could be used to refine the automatic NER, 
such as committee (22 occurrences), directive (16), agreement (13), group (11), plan 


'8Stopword lists were directly copied and pasted from http://members.unine.ch/jacques.savoy/ 
clef/index.html. The interjection "ehm", used in the transcription conventions for representing 
hesitation in speech, was also added to the stopword list. 
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(10), fund (9), etc. Then, a second wordlist (Wordlist 2) was created by sorting the 
nouns alphabetically and filtering out those which were neither semantically nor 
frequency-wise relevant (e.g. angle, 1) or which had been correctly recognised by 
the automatic NER (e.g. Aguilar, 1). Although Sketch Engine did not allow for 
alphabetical sorting of the wordlist, nor for complete visualisation of the results 
in one column (the maximum is 500), it was possible to download the data in a 
CSV file and order the words by using the corresponding Excel function. 

The next step was to search for the nouns in the wordlist manually. To this end, 
we opened a new window of concordances in Sketch Engine to directly search for 
the occurrences of each noun in the corpus. At this point, some basic functions 
of concordance search, such as alphabetical sort by context (left and right), file 
view, and wildcard search, were also used for easier and faster identification of 
new entities. Wildcard search proved especially useful in combination with the 
wordlist, as in some cases looking for lexical roots made it possible to inspect sev- 
eral instances of the list at once. For instance, a search for [ *omission*] retrieved 
up to three instances of the wordlist simultaneously (Commission, commission, 
and commissioner). 

Apart from wordlist frequency, institutionalisation was the second criterion 
for identifying relevant NEs. In this case, coverage in Eur-lex,? IATE? and/or 
TermCoord's Glossary Links?! was taken as a reference (see Figure 3). 

Following these criteria, new NEs were extracted from the concordances in 
each component and saved in an Excel file. Some examples of further relevant 
NEs manually extracted were Directorate-General for the Mar Menor (orc, PETI- 
MOD MEDIATED EN), Acuerdo de Asociación Económica (misc, PETIMOD ME- 
DIATED ES), municipality of Real (Loc, PETIMOD ORIG EN) and Directiva de 
inundaciones (Misc, PETIMOD ORIG ES), among others. 

Finally, NER performance has been calculated in terms of recall for both lan- 
guages. As in the case of precision, two granular levels of analysis have been 
used. The first level takes all NEs correctly identified by the script as relevant, 
irrespective of their classification (see 84.1). For these calculations, it was nec- 
essary to sum the manually retrieved NEs for each component, combining and 
sorting them by language. 

A further level of recall analysis is achieved by discriminating between NEs 
correctly identified and correctly tagged by the automatic script (relevant) and 


Phttps://eur-lex.europa.eu/. 

https://iate.europa.eu/home. 

21A database of more than 8,000 glossaries managed by the Terminology Coordination Unit of 
the EP Directorate-General for Translation (https: //termcoord.eu/glossarylinks/). 
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Figure 3: Example of manual NER using institutional criteria. The con- 
sulted NE (“EU law”) had not been automatically recognised. 


Table 6: NER performance in terms of recall (Correct ID + Wrong 


Class). 


Total no. of relevant NEs 


Recall 


Relevant NEs retrieved automatically 
Relevant NEs retrieved manually 


English Spanish 
1,997 896 
1,204 607 

353 289 
0.773281 0.677455 


NEs correctly identified but wrongly tagged (not relevant). This allows refining 
recall results by excluding wrong-labelled NEs from calculation. 


4.3 Corpus-based analysis 


For the corpus-based analysis described in this section, all relevant NEs in the 
Excel files (correctly identified, correctly identified but mislabelled, and manually 
extracted) were prepared by listing them together in a new file, manually sorting 
them by category and language. Figure 4 below shows the two columns for the 
PER category (English and Spanish), the first one attending to the VIP annotation 


scheme order described above. 
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Table 7: NER performance in terms of recall (Correct ID). 


English Spanish 
Total no. of relevant NEs 1,075 745 


Relevant NEs retrieved automatically 1,042 456 
Relevant NEs retrieved manually 353 289 
Recall 0.969302 0.612080 


Once all NEs were prepared, the next step was analysing the observable shifts 
in their translation and/or interpretation. We decided to perform the shift anal- 
ysis both in the EN>ES translation (components PETIMOD_ORIG_EN vs. PETI- 
MOD_MEDIATED_ES, or direction Al in Figure 1) and in the ES>EN interpreta- 
tion (components PETIMOD ORIG ES vs. PETIMOD MEDIATED EN, or direc- 
tion A2 in Figure 1). The reasons for this decision were two: it comprised all the 
different components in our corpora, and the cross-comparison of translation 
and interpreting analysis was expected to show interesting findings. 

Provided that the raw material for analysis (i.e., the NEs) was already extracted, 
labelled, and sorted by language, the next three steps to be taken were: (1) con- 
trasting them across languages to observe (possible) changes; (2) searching for 
them in the corpora in order to extract contextual exemplification of the shifts 
and identify their direction; (3) categorising the shifts. Step 1 could be done 
directly in the Excel file, underlining those units already analysed and/or not 
shifted. For Step 2, we prepared a mosaic-style panel of four windows, one for 
each uploaded component in Sketch Engine, in order to identify the directions 
and the exact alignment of the document in which the shift occurred (see Fig- 
ure 5). A total of 142 shifts (69 for EN-ES translation, 73 for ES-EN interpre- 
tation) were identified and analysed. Regarding Step 3, the bottom-up transfer 
operations typology of Bernardini (2016) was chosen to categorise the shifts (see 
85 for further description). The category was annotated next to the extracted 
concordances, in a table-like fashion. The Excel file for shift analysis included 
retrieved NEs and categorised shifts sorted by direction. As it can be inferred, 
the previous work with the entities in the automatic and manual NER phases 
was very helpful for this analysis, and allowed for quick identification and re- 
membrance of the nature and direction of several shifts. Again, the institutional 
resources cited in $4.2 (Eur-lex, IATE, Glossary Links) were occasionally used in 
combination with generic searches in Google and/or Wikipedia in order to gain 
insights into the possible motivations behind some of the shifts encountered. 
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lejandro Blasco Sánchez 


lexandrov 
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Arianna Colonello 


hristel Schlebusch 

lara Aguilera 
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oaquín Pérez Gómez 


Figure 4: Screenshot of the Excel file with extracted PER NEs (En- 


glish/Spanish). 
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Figure 5: Four-window panel in Sketch Engine to track shifts in the 
corpus. 


5 Shift analysis and results 


The term “shifts” commonly refers to “changes which occur or may occur in 
the process of translating [and interpreting]" (Bakker et al. 2009: 269). Shifts 
of translation (and interpreting) can be distinguished from the systemic differ- 
ences which exist between source and target languages and cultures. Systemic 
differences, which pertain to the level of competence, are part of the opening 
conditions for translation (and interpreting). Shifts, on the other hand, result 
from attempts to deal with systemic differences (ibid). In this study, only NEs 
that experienced shifts during translation/interpreting were analysed, whereas 
translations/interpretations where no shifts in NEs occurred were ignored. As 
stated in the previous section, the bottom-up transfer operations typology from 
Bernardini (2016: 140), used to categorise shifts in the intermodal corpus EPTIC, 
was chosen for this analysis. It includes register shifts (either upwards or down- 
wards), quantitative meaning shifts (contraction, expansion, clarification, broad- 
ening), and transformational meaning shifts (partial and total), as well as cases 
akin to normalisation. In the next paragraphs, each of these categories will be 


22For the sake of clarity, the original name of this category was rephrased for this chapter (from 
“more collocational" to *normalisation"). 
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described and illustrated with examples from our corpus.?? However, as Bernar- 
dini (ibid.) puts it: 


As often happens with language in use, some instances were impossible to 
assign indisputably to one category only. In these cases a decision was made 
based on a close reading of the co-text and, inevitably, intuition as to the 
main reason for making a certain choice. (Bernardini 2016: 140) 


The first type of shifts, categorised under "register" (up and down), could in- 
deed be sometimes confused with contraction and expansion changes. Illustrat- 
ing them with the use of acronyms helps establish a clear-cut separation between 
register shifts (formal) and meaning shifts. In example (1), the acronym is avoided 
in the EN-ES direction, which increases the level of formality. It is shifted to the 
modifier de la Unión, which in the Spanish eurolect can be considered even more 
formal than the alternative de la Unión Europea because of its specificity. Exactly 
the same change can be further found in the same sentence (from EU Member 
States to Estados Miembros de la Unión). 


(1 Register up shift (EN-ES translation) 
a. The EU Delegation in Japan and the authorities of EU Member States 
[PETIMOD ORIG EN] 


b. La «Delegación de la Unión» en Japón y las autoridades de los 
Estados miembros de la Unión [PETIMOD MEDIATED ES] 


On the contrary, in the ES-EN interpretation in example (2), the acronym ENVI 
is preferred instead ofthe denomination Comisión ENVI (already shortened in the 
original). As the Spanish ISG always recommend the use of the word Comisión 
when referring to these bodies (cf. European Union 2021: 172), this can be consid- 
ered a shift which downgrades register. In fact, some shifts of the same nature 
can be observed in the surrounding verbs (pedimos — pass, realice — carry out). 


(2) Register down shift (ES-EN interpretation) 
a. le pedimos a la Comisión ENVI que realice una visita 
[PETIMOD ORIG ES] 
b. we should pass it on to <ENVI> and ask them to carry out a study... 
visit [PETIMOD MEDIATED EN] 


23We followed the same conventions of Bernardini (2016: 140). The underlined NE in the source 
roughly corresponds to the NE or segment in the target (in angle brackets). 
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Moving to quantitative meaning shifts, contraction implies changing from an 
informative detailed NE or NE sequence to a shorter and more under-defined 
equivalent (Bernardini 2016: 141). Although the author does not put it explicitly, 
it can be deduced from the given examples that contraction and expansion are 
related, as the reduction (or addition) of meaning also conveys a reduction or 
addition in the number of words (ibid.). In example (3), the English word referring 
to the region (Galicia) is omitted in the Spanish translation, as it is (supposedly) 
not necessary for a standard Spanish reader. 


(3) Contraction shift (EN-ES translation) 


a. in an existing business park, on a green field plot, in Curtis-Teixeiro, 
La Coruna , Galicia, Spain. [PETIMOD_ORIG_EN] 


b. en un parque de actividades económicas ubicado en un terreno no 
urbanizado de Curtis-Teixeiro «(La Coruña, España)> 
[PETIMOD MEDIATED ES] 


A similar example, but this time of expansion, could be extracted from the ES- 
EN direction. Here we also have a Loc NE referred to a quite specific Spanish area 
(Campo de Cartagena), but the interpreter's decision is the opposite one: adding 
the modifier region to specify the nature of the named entity, thus increasing the 
number of words. 


(4) Expansion shift (ES-EN interpretation) 


a. élestaba contentísimo con el modelo agrícola del 
Campo de Cartagena [PETIMOD ORIG ES] 


b. they were very happy with the agricultural model in the «Campo de 
Cartagena region» [PETIMOD MEDIATED EN] 


Like expansion shifts, clarifications are instances of addition, in which mean- 
ings that are implicit in the sources are made explicit in the targets. As a rule of 
thumb, Bernardini (2016: 140) states that "in the case of clarification words used 
are more explicit, whereas in the case of expansion there is also an increase in 
the number of words (though admittedly the difference is not always clear-cut). 
For improved distinction, it could be added that clarification seemingly implies 
adding less words that any expansion would. Again, the Loc label provides a suit- 
able example in the EN-ES translation. In example (5) the unit municipality of 
Real, which initially refers to a geopolitical entity and could imply demanding 
information from any office contained in these borders, is shifted to a more ex- 
plicit reference (Ayuntamiento de Real or town hall). Interestingly, by performing 
this operation, the nature of the NE is also shifted (from roc to ono). 
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(5) Clarification shift (EN-ES translation) 


a. the Environmental Inspection Service requested the 
municipality of Real to inform [PETIMOD_ORIG_EN] 


b. En 2012, el Servicio de Inspección Medioambiental pidió al 
<Ayuntamiento de Real> informacion [PETIMOD_MEDIATED_ES] 


The third possible case of quantitative meaning shift is broadening, or gen- 
eralisation through vaguer or emptier terms. In example (6), two PER NEs are 
generalised through the common, more neutral noun petitioners. This is a quite 
prototypical example, as additionally the first PER (Eduardo Salazar Ortuno) is 
not one of the petitioners, but a lawyer who is present on behalf of them (this 
is contextual information which can be found in the corpus some interventions 
before). Other aspects worth mentioning are the double nature of the shift and 
the extended broadening phenomena in the two misc NEs dos minutos, which are 
suppressed in favour of the more general idea conveyed by conclude. 


(6) Broadening shift (ES-EN interpretation) 


a. para concluir esta petición le daríamos la palabra por dos minutos al 
señor Eduardo Salazar Ortuño // y luego le daríamos dos minutos más 
al señor José Luis Álvarez-Castellanos Rubio [PETIMOD_ORIG_ES] 


b. let's close the debate on that and we will conclude this point by giving 
the floor back to <our two petitioners> [PETIMOD_MEDIATED_EN] 


Transformational shifts include two different grades (partial and total). Partial 
transformation involves a reformulation with approximately the same co-textual 
meaning, but using an unrelated expression with a different out-of-context mean- 
ing (Bernardini 2016: 142). Again, the ES-EN interpretation provides a prototyp- 
ical example of partial transformation. The collocation flourishing ecosystem in 
example (7) does not convey the same specialised meaning as Zona de Especial 
Conservación, but serves as equivalent in the context of the inversion operated 
in the target sentence. As already observed in example (6), the shift affects more 
than one particular NE and can be analysed even at the sentence level. 


(7) Partial transformation shift (ES-EN interpretation) 


a. enla cuenca del Mar Menor la Red Natura 2000 es una etiqueta 
formal que no responde a una gestión eficiente de lo que sería una 
Zona de Especial Conservación [PETIMOD_ORIG_ES] 
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b. Natura 2000 is an official label that should lead to efficient 
management of what should be a <flourishing ecosystem> 
[PETIMOD MEDIATED EN] 


Total transformation, on the other hand, may sometimes override the limits 
of equivalence and fall closer to the notion of translation error (see for example 
Hurtado 2017). In example (8), the translator seems to have looked for the real 
(and very different) equivalent of the generic NE underlined in (8), but has made 
a mistake in the process (Consejería de Turismo y Cultura instead of Consejería 
de Turismo, Cultura y Medio Ambiente).** This is a very similar case to the one 
illustrated by Bernardini (2016: 142), in which an error is produced in the search 
of a salient collocation (here, a NE) in the target language. 


(8) Total transformation shift (EN-ES translation) 


a. the creation of a specific Directorate-General for the Mar Menor, 
within the regional Department for the Environment 
[PETIMOD ORIG EN] 


b. la creación de una Dirección General del Mar Menor, dentro de la 
«Consejería de Turismo y Cultura» [PETIMOD MEDIATED ES] 


The last shift category presented in this typology is normalisation. In the 
words of Bernardini (Bernardini 2016: 142), here "the difference from source to 
target seems to be one of collocationality: i.e., the inherent motivation for us- 
ing a certain turn of phrase seems to be its salience as a phrase, or status as a 
collocation, in the target language.’ In this study, however, the analysed normal- 
isation shifts are not performed on collocations, but on multi-word terms or NEs, 
such as the ones in example (9). In this translation, a subtle shift in a preposition 
(National Assembly in France — Asamblea Nacional de Francia) reveals a more 
frequent? multi-word term in the target language than Asamblea Nacional en 
Francia. 


"See https://www.borm.es/services/anuncio/ano/2017/numero/3482/pdf?id=757271. In 
fact, the name of the supervising office is now "Consejería de Agua, Agricul- 
tura, Ganadería, Pesca y Medio Ambiente” (https://administracion.gob.es/pagFront/ 
espanaAdmon/directorioOrganigramas/fichaUnidadOrganica.htm?idUnidOrganica- 

123379 &origenUO-comunidadesAutonomas&comunidadesAutonomas-true&volver- 
comunidadesAutonomas&idCCA A -144.X- DOyelCe00). 

*5For example, a search in the Spanish reference corpus CORPES (https://webfrl.rae.es/CORPES/ 
view/inicioExterno.view) yields five results against zero. 
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(9) Normalisation shift (EN-ES translation) 
a. on 16 February 2019, the National Assembly in France has adopted 


the law of programming 2019-2022 and the justice reform 
[PETIMOD ORIG EN] 


b. la «Asamblea Nacional de Francia» adoptó el 16 de febrero de 2019 la 
ley de programación 2019-2022 y la reforma judicial 
[PETIMOD MEDIATED ES] 


6 Discussion 


In this section, the overall results of our analysis are discussed, focusing on three 
different quantifications for both translation and interpreting: 1) distribution of 
the type of shifts retrieved; 2) distribution of the labels of the shifted entities; 
and 3) the detailed shift entity relationship with all the subcategories of shifts as 
described above. Then, we will relate our findings to results reported in related 
literature on intermodal corpora. 

Figure 6 quantifies certain tendencies within English-Spanish translations and 
Spanish-English interpretations in the Committee on Petitions. The most promi- 
nent shifts are quantitative shifts (75 instances in both language pairs) and reg- 
ister shifts (33), followed by transformational shifts (18) and normalisations (16). 
There is a predominance of register shifts in EN-ES translations (20 against 13) 
and a fairly more balanced number in the case of quantitative meaning shifts 
(36 against 39). Transformational meaning shifts are more numerous on ES-EN 
interpretations (2 against 16); inversely, normalisations are more present in the 
translations into Spanish (11 against 5). 


Normalisation mm T = ES-EN interpretations 
=æ EN-ES translations 
7 16 
Meaning (transformation) — 
‘ "ET 39 
Meaning (quantitative) 36 
Gees — 
li i J 


13 
a 
0 5 10 15 20 25 30 35 40 


Figure 6: Type of shifts distribution. 
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Figure 7 shows the distribution of shifted NEs per label, as illustrated in §3 of 
this chapter. Misc entities are the most frequent (58), closely followed by orc (51); 
Loc (22) and PER (11) are considerably less represented in the shifts. The miscel- 
laneous entities are more subject to shifts in the interpretations into English (26 
against 32); conversely, organisational entities are prone to shifts in the transla- 
tions into Spanish (30 against 21). The number of locations remains fairly equal in 
both directions (12 against 10). Finally, shifts in named persons are almost inexis- 
tent in EN-ES translations (only 1 result) in comparison to ES-EN interpretations 


(10). 


PER mm 10 = ES-EN interpretations 


mm EN-ES translations 


Figure 7: Shifted entities distribution. 


In Table 8, 9 and 10, the two types of data commented above (type of shifts and 
type of entities) are cross-related and broken down into the nine shift subcate- 
gories used for this study. 

Table 10 contrasts the subcategories of shifts encountered in both directions 
(EN-ES translations vs. ES-EN interpretations). 

In this comparison, major differences can be found which help characteris- 
ing the shifting profile of each type of transfer separately. It appears that, when 
operating with named entities: 


e English-Spanish translations tend to upgrade register (19), change meaning 
by contracting (15) and expanding (14), and to normalise multi-word terms 


(11). 


e Spanish-English interpretations, contrarily, tend to downgrade register (12), 
change meaning by contracting (10) and broadening (24), and to present 
more transformations, be they partial (8) or total (8). 
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Table 8: Detailed shift-entity relationship (EN-ES translations) 


Type of shift PER ORG LOC Misc Total 
Register up 0 6 3 10 19 
Register down 0 0 1 0 1 
Contraction 0 4 2 9 15 
Clarification 1 0 2 1 4 
Expansion 0 9 1 4 14 
Broadening 0 1 1 1 3 
Partial transformation 0 0 0 1 1 
Total transformation 0 1 0 0 1 
Normalisation 0 9 2 0 11 


Table 9: Detailed shift-entity relationship (ES-EN interpretations) 


Type of shift PER ORG LOC Misc Total 
Register up 0 0 1 1 
Register down 0 5 2 5 12 
Contraction 4 2 1 3 10 
Clarification 0 1 0 2 3 
Expansion 1 0 1 0 2 
Broadening 3 6 6 9 24 
Partial transformation 1 1 0 6 8 
Total transformation 1 1 0 6 8 
Normalisation 0 5 0 0 


In general, the results show clear differences in the nature of shifts between 
EN-ES translations and ES-EN interpretations in the Petitions Committee. Trans- 
lations from English into Spanish present more frequently register (e.g. RAMSAR 
— Convención de Ramsar)? and normalisation shifts (e.g. Government of Va- 
lencia’s Ministry of Agriculture — Consejería de Agricultura de la Generalitat Va- 
lenciana). In the case of register, practically all changes are upwards (Bulgarian 
Ministry of Environment and Water — Ministerio Bálgaro de Medio Ambiente y 


?*These examples were extracted from the most common NE categories in each case according 
to the correlation Table 8 and Table 9. 
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Table 10: Comparison of shift subcategories in both directions 


Type of shift EN-ES translation ES-EN interpretation 
Register up 19 1 
Register down 1 12 
Contraction 15 10 
Clarification 4 3 
Expansion 14 2 
Broadening 3 24 
Partial transformation 1 8 
Total transformation 1 8 
Normalisation 11 5 


Recursos Hídricos), as opposed to the downward tendency of the shifts in the inter- 
pretations into English (Comisión de Medio Ambiente del Parlamento Europeo — 

ENVI Committee). The fact that Spanish translators tend to be more formal than 
English interpreters was a previous intuition confirmed by the data, similarly to 
the results obtained by Bernardini (2016: 143-144) in her comparative analysis of 
Italian-English translations. Moreover, results in normalisation bring a new per- 
spective to previous studies, as this is a newly introduced shift category which 
focuses on changes in specialised multi-word terms instead of general-language 
collocations. In the case of Bernardini, results showed an increased tendency by 
Italian-English translators to insert general language collocations. Our data show 
that normalisation of specialised phraseology is preferred when translating into 
the Romance language (Spanish) instead. 

Moving on to quantitative meaning shifts, the interpretations present a slightly 
higher amount of them, although it must be specified that they are not of the 
same type in both directions and modes. While contraction and clarification are 
more or less equal, expansion prevails overwhelmingly in the EN-ES translations, 
as in the example: Association for the Renaissance of Craiova (ARC) — «Associ- 
ation for the Renaissance of Craiova » (ARC) (Asociación para el Renacimiento de 
Craiova). Inversely, broadening is much more numerous in the ES-EN interpre- 
tations (nueve mil seiscientas hectáreas ilegales — considerable illegal construc- 
tion). Considering that broadening shifts could be regarded as a simplification 
feature, our results for the English-Spanish/Spanish-English pair are in line with 
the bidirectional English<>Italian study of Bernardini et al. (2016), in which in- 
terpreters were found to simplify the input more than translators. 
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Finally, transformations are substantially more present in the ES-EN interpre- 
tations, where they are equally distributed among partial (Ley de Proteccion Inte- 
gral del Mar Menor law for iterative protection of the Mar Menor) and total (Planes 
de Ordenacion de los Recursos Naturales — natural protection ehm plans). This is 
an interesting finding because it presents both similarities and divergences with 
previous intermodal studies. In Bernardini (2016), for example, transformations 
were also absent from English-Italian translations, but far more present in the 
other subcorpora, and the “partial” category outnumbered the “total” one. Al- 
though this could be the result of different conceptualisations by the researchers 
on what “transformation” means, it can also be argued that dissimilarities in 
transformational behaviour are connected to Ferraresi & Mili¢evic’s (2017: 1) 
“cognitive and task-related constraints” characterising the translation and inter- 
preting processes. In other words, the number and nature of the transformations 
operated by the translator and/or interpreter could be strongly dependent on 
factors beyond language direction or mode, such as the communicative situation 
in which they are working (e.g., whether the context is a plenary session of the 
Parliament or a Committee meeting) or even the topic of the source text.?” 

Precisely with the goal of shedding some light on the connections between 
topic (or specialisation field, etc.) and the shifts involved in translation and inter- 
preting, discussion should also centre on the shifted NEs label distribution shown 
in Figure 7. A clear majority of miscellaneous and organisational entities over 
locations and proper nouns of persons can be observed both in EN-ES transla- 
tion and ES-EN interpreting. These results picture a cognitive domain of a rather 
political nature, in which parties, public platforms and similar organisations dis- 
cussing policies and agreements are more important than the places where the 
problem occurred or the persons who complained in the first place. This perspec- 
tive suits the function of the Committee on Petitions and points indeed towards 
a supranational way of making politics which permeates through the shifts en- 
countered in translation and interpreting. What is more, a closer examination 
of Table 8 and 9 reveals that there is a high degree of relationship between the 
frequencies of shifts and entities in both analysed directions and modes. For ex- 
ample, the frequent upward register shifts in EN-ES translation often occur in 
misc NEs (EU law — Derecho de la Union), and the numerous broadening shifts 
in the ES-EN interpretations are usually operated on onc NEs (departamentos 
de Ecología de la Universidad de Murcia — the University of Murcia and its re- 
searchers). Introducing this new parameter in the analysis of shifts could add a 


?"These factors could also affect the degree of relation between total transformation shifts and 
translation/interpreting errors suggested in 83. 
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new variant to the conclusions of Ferraresi et al. (2018) and lead us to hypoth- 
esise that simplification is a contingent feature which depends not only on the 
mediation mode and the source languages involved, but also on the topic of the 
source text. This is in line with calls for multifactorial research designs in empiri- 
cal translation/interpreting studies (Corpas Pastor 2008, De Sutter & Lefer 2020), 
since studies that take into account only one or two explanatory factors fall short 
of explaining the complexity of real-world translation/interpreting phenomena. 
Under this view, the analysed ES-EN interpretations of the Committee on Pe- 
titions would be more simplified than the EN-ES translations not just because 
they are an oral mediation performed into English, but also because the inter- 
preters (consciously or not) would apply certain strategies aimed at approaching 
the content of their message to a broader audience than translation. This would 
imply neutralising or simplifying institutional-specific Misc and ORG NEs (EU 
legislation, international agreements, public bodies, etc.), paradoxically the most 
unfamiliar in the ears of the European citizens who could also exercise their right 
of petition. 


7 Conclusion 


The study presented in this chapter can be regarded as innovative for various 
reasons. To the best of our knowledge, it is one of the first corpus-based studies 
which relies on translated and interpreted documents from the European Parlia- 
ment Committee on Petitions. Secondly, it does not only build and employ a type 
of resource which is still in its infancy (intermodal corpora), but also introduces a 
new methodological layer through manual and state-of-the-art automatic named- 
entity recognition (the latter performed by spaCy). This approach added new as- 
pects to the analysis of translation and interpreting shifts (a new shift category 
called “normalisation” and the possibility of correlating shifts to the semantic la- 
bels of the NEs involved), which in turn helped establish interesting findings in 
relation with previous studies (normalisation as a language-dependent feature 
of translation, transformation and simplification as contextual, topic-dependent 
features of interpreting). 

Our study presents some limitations, though. Concerning methodology, the 
suitability of the selected transcription conventions must be revised. Even 
though we introduced certain modifications to the system, some of the proposed 
features seem more adequate for multimodal corpora and are counterproductive 
when recognising NEs (consider for example the hesitation particle ehm in the 
Socialist for ehm Party ehm from the ehm Murcia region). NE recognition and 
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corpus-based shift analysis could also be extremely facilitated with the addition 
of an intermediate alignment phase to cope with terminology variation. In fact, 
monolingual terminological variation within NEs (e.g., The Court, Court of Jus- 
tice of the European Union, CJEU, etc.) turned manual pairing into an exhausting 
job. As to NE labelling, a more fine-grained taxonomy is also needed for both 
languages, especially in the MISC category, where additional subtypes not avail- 
able in the VIP scheme could be traced during the analysis (e.g. agreements like 
Ramsar or quasi-legal documents such as Estrategia de Gestion Integrada, among 
others). Undoubtedly, a tailor-made labelling system like this would consider- 
ably increase the quality of the correlating shift-entity results. In addition, the 
spaCy script integrated in the VIP NER module has been trained on two differ- 
ent language models, which could also account for the differences in precision 
and recall (685,000 word vectors in English as opposed to 500,000 word vectors 
in Spanish). 

Finally, the NLP-enhanced orientation to the analysis of intermodal corpora 
presented in this chapter helped envisage a new line of research which does not 
hold translation and interpreting universals as an unconditional reality, but as a 
theoretical basis which is given in different degrees in the texts, depending on 
variants such as the languages and directions involved, the mode of mediation, 
and even the semantic content of the named entities conveyed. Therefore, multi- 
factorial research designs are needed to capture the multitude of factors that have 
an influence on the observed phenomena. Although more studies are needed to 
determine the exact relevance of these semantic categories in translation and 
interpreting shifts, it would seem that the final goal is finding a transversal set 
of norms which could break the theoretical differences between translation and 
interpreting, focussing the discussion on the coordinates or function of the me- 
diation instead of the mediating mode itself. 
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Mediated discourse at the European 
Parliament: Empirical investigations 


The purpose of this book is to showcase a diverse set of directions in empirical research 
on mediated discourse, reflecting on the state-of-the-art and the increasing intersection 
between Corpus-based Interpreting Studies (CBIS) and Corpus-based Translation Stud- 
ies (CBTS). Undeniably, data from the European Parliament (EP) offer a great oppor- 
tunity for such research. Not only does the institution provide a sizeable sample of oral 
debates held at the EP together with their simultaneous interpretations into all languages 
of the European Union. It also makes available written verbatim reports of the original 
speeches, which used to be translated. From a methodological perspective, EP materials 
thus guarantee a great degree of homogeneity, which is particularly valuable in corpus 
studies, where data comparability is frequently a challenge. 

In this volume, progress is visible in both CBIS and CBTS. In interpreting, it man- 
ifests itself notably in the availability of comprehensive transcription, annotation and 
alignment systems. In translation, datasets are becoming substantially richer in meta- 
data, which allow for increasingly refined multi-factorial analysis. At the crossroads be- 
tween the two fields, intermodal investigations bring to the fore what these mediation 
modes have in common and how they differ. The volume is thus aimed in particular at 
Interpreting and Translation scholars looking for new descriptive insights and method- 
ological approaches in the investigation of mediated discourse, but it may be also of 
interest for (corpus) linguists analysing parliamentary discourse in general. 


e Fehleranzahl sowohl vor als auch nach der Umsetzung 
der KS-Regel sehr hoch und mit einer minimalen Differenz (nach KS — vor KS) 
verbunden war (Mdiff = — ,042). Ein Vergleich der MU beider Systeme (Google 
Translate vs. Systran) in Tabelle 5.14 zeigt Folgendes: 

Bei dem HMÜ-System Systran wurde der Oberflächentext sowohl mit als auch 
ohne Verwendung der Anführungszeichen kleingeschrieben, jedoch gab es kei- 
nen Wortstellungsfehler. Das NMÜ-System konnte ohne Anführungszeichen den 
Oberflächentext nur zum Teil (in ‚Communication‘) als Bezeichnung erkennen 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Tabelle 5.14: Beispiel 12 


Vor-KS Im Reiter Kommunikation BACnet können die notwendigen 
Einstellungen eingegeben werden. 


HMU Systran In the tab communication BACnet, the necessary settings can 


be entered. 

GNMU The necessary settings can be entered in the Communication 
tab BACnet. 

Nach-KS Im Reiter "Kommunikation BACnet" können die notwendi- 


gen Einstellungen eingegeben werden. 


HMU Systran In the tab “communication BACnet”, the necessary settings 
can be entered. 

GNMU The necessary settings can be entered in the "Communication 
BACnet" tab. 


Die KS-Stelle ist fett dargestellt. Blau wird fiir die korrekten Tokens verwendet; Rot fiir die 
falschen Tokens. 


und grofischreiben. Problematisch fiir Google Translate war die unbekannte Be- 
zeichnung ‚BACnet‘. Dies war möglicherweise die Ursache für den Wortstel- 
lungsfehler. Die Schwäche der NMÜ bei der Übersetzung von seltenen Wör- 
tern und Eigennamen wurde in vorherigen Studien (vgl. Le & Schuster 2016; 
Koehn 2017) thematisiert. Die Verwendung der Anführungszeichen war hierbei 
für Google Translate nützlich, denn durch die Markierung der Oberflächenbe- 
zeichnung konnte der Wortstellungsfehler behoben werden. Insgesamt traten 
bei Google Translate fünf Fehler bei der Übersetzung von vier Sätzen (inkl. Tabel- 
le 5.14) vor der Regelanwendung auf (Abbildung 5.13). In einer Wiederholung der 
Übersetzung Anfang 2020 ohne Verwendung der Anführungszeichen mit Goog- 
le Translate trat nur ein Fehler (Kleinschreibung einer Bezeichnung) auf. Dies 
deutet auf einen Fortschritt im Bereich der Übersetzung von seltenen Wörtern 
bzw. Eigennamen hin. 

Einen signifikanten Unterschied gab es bei den drei weiteren Systemen: dem 
HMU-System Bing (Mdiff = — 1,125; z (N = 24) = — 4,093 / p < ,001); dem SMÜ- 
System SDL (Mdiff = — ‚708; z (N = 24) = — 3,117 / p = ,002); dem RBMÜ-System 
Lucy (Mdiff = — ‚583; z (N = 24) = — 2,889 / p = ,004). Mehr Details zu den genauen 
Fehlertypen bei jedem System sind unter §5.4.2.4 zu finden. 
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5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


5.4.2.3 Aufteilung der Annotationsgruppen 


Wie Abbildung 5.14 zeigt, enthielten knapp 42 % der Ubersetzungen sowohl vor 
als auch nach der Verwendung der Anführungszeichen Fehler (Gruppe FF). Au- 
Berdem waren fast 26 % der Übersetzungen sowohl vor als auch nach der Ver- 
wendung der Anführungszeichen fehlerfrei (Gruppe RR). Gleichzeitig wurden 
ungefähr 31 % falsche Übersetzungen (vor KS) nach der Verwendung der Anfüh- 
rungszeichen korrigiert (Gruppe FR). 


RR 


FF 


BE 


FR 


Abbildung 5.14: „Anführungsz. verw“ - Aufteilung der Annotations- 
gruppen 


Auf der anderen Seite kam es sehr selten vor (nur bei 2 Übersetzungen), dass 
nach der Verwendung der Anführungszeichen eine vor der Verwendung der An- 
führungszeichen korrekte Übersetzung falsch übersetzt wurde (Gruppe RF). Im 
nächsten Abschnitt (§5.4.2.4) werden die Fehlertypen ins Visier genommen. 


5.4.2.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MÜ- 
Systemebene 


Eine genauere Analyse der einzelnen MÜ-Systeme bei der Regel „Für zitierte 
Oberflächentexte gerade Anführungszeichen verwenden“ zeigt Folgendes (Ab- 
bildung 5.15): 

Wie Abbildung 5.15 zeigt, waren 96 % der 24 Sätze des HMÜ-Systems Sy- 
stran sowohl vor der Verwendung der Anführungszeichen als auch danach falsch 
(Gruppe FF). Der Grund hierfür ist, dass Systran die Oberflächentexte immer in 
Kleinschreibung übersetzt hat (vgl. Tabelle 5.14). Ebenfalls blieben 11 von 24 Ober- 
flächentexte bei dem RBMÜ-System Lucy trotz der Verwendung der Anführungs- 
zeichen kleingeschrieben (Gruppe FF). Insbesondere bei regelbasierten Systemen 
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FF 
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Annotationsgruppe 


lı Bing lı Google lı Lucy lısoLlı Systran 
Die oben angezeigten Prozentzahlen sind für alle Systeme, d. h. systemübergreifend, (N = 120) 
berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.15: „Anführungsz. verw“ - Aufteilung der Annotations- 
gruppen bei den einzelnen MÜ-Systemen 
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ist davon auszugehen, dass sie auf Basis der hinterlegten Systemregeln die Ober- 
flächentexte mithilfe der Anführungszeichen erkennen und in Grofischreibung 
übersetzen. In anderen Worten würde bei dem RBMU-System in Verbindung mit 
dieser KS-Regel eine Besserung des MU-Outputs erwartet. 

In der Gruppe RR war das NMU-System Google mit 83 % seiner 24 analysierten 
Satze an erster Stelle vertreten. Zudem wurden 13 % seiner Satze (3 von 24 Satzen) 
erst nach der Verwendung der Anführungszeichen korrekt übersetzt (Gruppe FR) 
(vgl. Tabelle 5.14), siehe Abbildung 5.15. 

Im Gegenteil zu dem HMÜ-System Systran konnte das andere HMU-System 
(Bing) von der Anwendung der Regel deutlich profitieren, sodass 67 % der fal- 
schen Übersetzungen nach der Verwendung der Anführungszeichen fehlerfrei 
übersetzt wurden (Gruppe FR), siehe Abbildung 5.15. Auch bei dem SMÜ-System 
SDL konnten viele Kleinschreibungen mithilfe der Anführungszeichen (nach KS) 
korrigiert werden. Die Gruppe RF kam selten (genau in zwei Fällen) nur bei SDL 
vor. 


5.4.2.4 Vergleich der Fehlertypen vor vs. nach der Verwendung von 
Anführungszeichen 


Nach der Verwendung von Anführungszeichen sank die Fehleranzahl von zwei 
Fehlertypen deutlich: Fehlertyp OR.2 „Orthografie - Großschreibung“ von 80 auf 
39 (51,2 % / Mv = ‚67 / SDv = ‚473 / Mn = ‚33 / SDn = ‚470 / N = 120) sowie Fehlertyp 
GR.10 „Grammatik - Falsche Wortstellung“ von 32 auf 14 (56,2 % / Mv = ,27/ SDv 
= ‚463 / Mn = ‚12 / SDn = ‚322 / N = 120), siehe Abbildung 5.16. Der Unterschied 
bei den beiden Fehlertypen OR.2 und GR.10 erwies sich als hochsignifikant (p < 
‚001/N = 120). 

Die Markierung der Oberflachentexte, insbesondere derjenigen, die als Mehr- 
wortentitäten auftreten, mithilfe von Anführungszeichen vereinfacht die syntak- 
tische Analyse (Parsing). Entsprechend wird der Oberflächentext als solcher er- 
kannt und großgeschrieben übersetzt. Ferner fördert die Erkennung des Ober- 
flächentexts eine korrekte Wortstellung. Insbesondere Oberflächentexte, die ein 
Verb umfassen, sind für die MÜ-Systeme problematisch, da dieses Verb, wie in 
Tabelle 5.15, oft mit dem eigentlichen Verb des Satzes kollidiert: 

Der Fehlertyp SM.11 „Semantik — Verwechslung des Sinns“ blieb fast unverän- 
dert (16 vor der Umsetzung bzw. 15 nach der Umsetzung der KS-Regel), siehe Ab- 
bildung 5.16. Wenn der Oberflächentext semantisch nicht eindeutig ist, stellt dies 
eine Schwierigkeit für die MÜ-Systeme dar, die durch die Verwendung von An- 
führungszeichen nicht gemindert werden kann. Beispiele hierfür sind die Ober- 
flächentexte ‚Netzwerk absuchen‘ (wurde als ‚Search network‘ anstatt ‚Scan net- 
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"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken repräsentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. ,OR_1.v“ für ,OR_1: Orthografischer Fehler Nr. 1“ 
und „v: Vor KS“; ,OR_1.n“ wäre entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario 
(„n*). 
“ Signifikante Differenz vor vs. nach KS 
OR.1: Orthografie — Zeichensetzung 
OR.2: Orthografie - Großschreibung 
LX.3: Lexik - Wort ausgelassen 
LX.4: Lexik - Zusätzliches Wort eingefügt 
LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 
LX.6: Lexik - Konsistenzfehler 
GR.7: Grammatik - Falsche Wortart / Wortklasse 
GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 
GR.9: Grammatik - Kongruenzfehler (Agreement) 
GR.10: Grammatik - Falsche Wortstellung 
SM.11: Semantik - Verwechslung des Sinns 
SM.12: Semantik - Falsche Wahl 
SM.13: Semantik - Kollokationsfehler 


Abbildung 5.16: „Anführungsz. verw“ - Summe der Fehleranzahl der 
einzelnen Fehlertypen vor vs. nach KS 
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5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


Tabelle 5.15: Beispiel 13 


Vor-KS Hierzu kann die Funktion Upload vom Gerat gewahlt werden. 


HMU Bing To do this, the function can upload XXX the device be selected. 


Nach-KS Hierzu kann die Funktion "Upload vom Gerät" gewählt 
werden. 


HMU Bing To do this, the function "Upload from the unit" can be selected. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


work‘ übersetzt) und ‚Geräteparameter ändern‘ (wurde als ‚Change equipment 
parameters’ anstatt ‚Change device parameters’ übersetzt). Alle anderen Fehler- 
typen kamen mit sehr wenigen Instanzen (max. drei Mal in den 240 analysierten 
maschinellen Übersetzungen) vor und nach der Anwendung der Regel vor. 


5.4.2.4.1 Vergleich der Fehlertypen auf Regel- und MÜ-Systemebene 


Eine genauere Untersuchung der Fehlertypen bei den verschiedenen MÜ-Systemen 
zeigt, dass die obengenannten signifikanten Unterschiede in der Fehleranzahl 
des Fehlertyps OR.2 „Orthografie - Großschreibung“ und des Fehlertyps GR.10 
„Grammatik — Falsche Wortstellung“ wie folgt zu beobachten sind: Die Verände- 
rung im orthografischen Fehlertyp OR.2 „Großschreibung“ war bei den Systemen 
Bing, Lucy und SDL signifikant, während die Veränderung im grammatischen 
Fehlertyp GR.10 „Wortstellung“ nur bei Bing signifikant ausfiel. 

Wie Abbildung 5.17 zeigt, sank der Fehlertyp OR.2 bei Bing von 20 auf1(- 95%), 
bei Lucy von 18 auf 11 (— 38,9 %) und bei SDL von 17 auf 3 (— 82,4 %). Der Feh- 
lertyp GR.10 sank bei Bing von 9 auf 3 (— 66,7 %). Tabelle 5.16 zeigt, wie die 
beiden Fehlertypen (der Großschreibungsfehler und der Wortstellungsfehler im 
Oberflächentext ‚Install software from a specific list‘) nach der Verwendung der 
Anführungszeichen behoben wurden: 

Wie Abbildung 5.13 zeigt, fanden die markanten Veränderungen der Fehleran- 
zahl nur bei den Systemen Bing, Lucy und SDL statt. Bei Google war die Fehler- 
anzahl vor und nach der Anwendung der KS-Regel klein und bei Systran war die 
Fehleranzahl in beiden Szenarien groß mit einer minimalen Veränderung nach 
der Regelanwendung. Entsprechend erwies sich der Unterschied in der Fehler- 
anzahl der beiden Fehlertypen OR.2 und GR.10 wie folgt als signifikant (Tabel- 
le 5.17). 
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*Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 
folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 

“Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 
Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen auftraten: In dieser 
Grafik kamen die Fehlertypen 5, 8, 9 und 13 bei gar keinem MÜ-System vor. Zudem wurden die 
Fehlertypen 1, 3, 4, 6, 7 und 12 nur einmal jeweils bei 1-3 MÜ-Systemen in vereinzelten Fällen 
registriert. 


Abbildung 5.17: „Anführungsz. verw“ - Summe der Fehleranzahl der 
Fehlertypen vor vs. nach KS bei den einzelnen MU-Systemen 
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Tabelle 5.16: Beispiel 14 


Vor-KS Wahlen Sie die Option Software von einer bestimmten Liste 


installieren. 


HMU Bing Select the install option software from a specific list. 


Nach-KS Wählen Sie die Option "Software von einer bestimmten Liste 


installieren". 


HMU Bing Select the option "Install software from a specific list". 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 


falschen Tokens. 


Tabelle 5.17: „Anführungsz. verw“ - Fehlertypen mit signifikanter Ver- 


änderung nach KS 


N Mittelwert Standard- 
abweichung 


OR.2 „Großschreibung“ 


Signifikanz 
(McNemar-Test) 


Bing 24 vor KS = An vor KS = ‚381 p < ‚001 
nach KS = ,04 nach KS = 204 

Lucy 24 vorKS =,75 vor KS = ,442 p = ‚016 
nach KS = Ap nach KS = ‚509 

SDL 24 vorKS=,71 vor KS = ,464 p < ‚001 
nach KS = ,13 nach KS = ,338 

GR.10 „Falsche Wortstellung“ 

Bing 24 vorKS=,17 vor KS = ,482 p = ‚031 


nach KS = ,13 nach KS = ‚338 
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Erwartungsgemäß blieb Fehlertyp SM.11 „Semantik — Verwechslung des Sinns“ 
fast unverändert. Wenn der Oberflächentext semantisch nicht eindeutig ist, stellt 
dies eine Schwierigkeit für die MÜ-Systeme dar, die durch die Verwendung von 
Anführungszeichen nicht beeinflusst werden können. Beispiel hierfür ist die Men- 
übezeichnung ‚Raumdruck‘, die von Systran als ‚Space printing‘ und von Bing als 
‚Pressure of space‘ anstelle von ‚Room pressure‘ übersetzt wurde. 


5.4.2.5 Vergleich der MÜ-Qualität vor vs. nach der Verwendung von 
Anführungszeichen sowie die Korrelation zwischen den Fehlertypen 
und der Qualität 


Sowohl die Stil- als auch die Inhaltsqualität?! stiegen nach der Verwendung der 
Anführungszeichen stark: Die Stilqualität verbesserte sich um 13,6 % (Mv = 3,61 / 
SDv = ‚654 / Mn = 4,10 / SDn = ‚461 / N = 74). Die Inhaltsqualität erhöhte sich um 
9,6 % (Mv = 4,17 / SDv = ‚857 / Mn = 4,57 / SDn = ‚527 / N = 74) (Abbildung 5.18). Der 
Mittelwert der Differenz (nach KS — vor KS) der vergebenen Qualitätspunkte pro 
Satz lag für die Stilqualität bei ‚490 (SD = ,525) mit einem 95%-Konfidenzintervall 
zwischen einem Minimum von ‚368 und einem Maximum von ‚611 und für die 
Inhaltsqualität bei ‚394 (SD = ,763) mit einem 95%-Konfidenzintervall zwischen 
einem Minimum von ‚217 und einem Maximum von ‚571 (Bootstrapping mit 1000 
Stichproben) (Abbildung 5.19). Die Differenzen (nach KS — vor KS) in der Stil- 
und Inhaltsqualität erwiesen sich als hochsignifikant (z (N = 74) = — 6,235 / p < 
‚001) bzw. (z (N = 74) = - 4,740 / p < ,001). 

Die Humanevaluation deckt genauer auf, wie der Qualitätsanstieg zustande 
kam. Eine Analyse der Qualitätskriterien (Abbildung 5.20) zeigt, dass das erste 
und zweite Stilqualitätskriterium (SQ1 und SQ2) sowie das zweite Inhaltsquali- 
tätskriterium (CQ2) die wesentliche Rolle bei der Qualitätsveränderung spielten. 

In Tabelle 5.18 unterstützten die Anführungszeichen das MÜ-System (SDL) da- 
bei, die Modulbezeichnung ‚ASV15‘ zu erkennen. Dies bewirkte eine Behebung 
des Wortstellungsfehlers. 

Dieses Beispiel veranschaulicht, wie die Verwendung von Anführungszeichen 
bei Oberflächentexten zu einer korrekten Darstellung der MU (GOU) führt. Dies 
wiederum trägt dazu bei, die Satzabsicht besser zu vermitteln (SQ2) und die Ver- 
ständlichkeit zu erhöhen (CQ2). 


Definitionen der Qualität unter §4.5.5.1. 
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I Differenz SQ (nach KS - vor KS) 
I Differenz CQ (nach KS - vor KS) 
T Differenz Q (nach KS - vor KS) 


95% Cl 


95% Cl 


së Mittelwert SO vor KS 
8 Mittelwert SQ nach KS 
« Mittelwert CQ vor KS 
Mittelwert CO nach KS 
ss Mittelwert Q vor KS 
WW Mitelwert Q nach KS 


Abbildung 5.18: „Anführungsz. verw“ - Abbildung 5.19: „Anführungsz. verw“ - 
Mittelwerte der Qualität vor und nach Mittelwert der Qualitätsdifferenzen 
KS 


Tabelle 5.18: Beispiel 15 


Vor-KS Das Modul ASV15 darf nur für seinen spezifizierten 
Einsatzzweck verwendet werden. 


SMÜSDL The ASV module should only 15 be used for its specified 
operational purpose. 


Nach-KS Das Modul "ASV15" darf nur für seinen spezifizierten 
Einsatzzweck verwendet werden. 


SMÜSDL The "ASV15" module should only be used for its specified 
operational purpose. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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400 p 
— 9% 


300 | E -— 42% 


210 
200 F — 51% 
— 21% 
= SC 
100 | | | 
0 


SOL wv SOL n SQ2 v 1 SQ3_v SQ3_n CQ1_v COl_n CO v CQ2_n 
SQ1: Ü ist nicht korrekt bzw. nicht klar dargestellt, d. h. nicht orthografisch 
SQ2: Ü ist nicht ideal für die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: Ü klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. 
CQ2: Ü ist nicht leicht zu verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.20: „Anführungsz. verw.“ - Vergleich der Qualitätskrite- 
rien 


5.4.2.5.1 Korrelation zwischen den Fehlertypen und der Qualität 


Auf Basis der Fehlerannotation zeigte der Vergleich der Fehlertypen vor vs. nach 
der Verwendung der Anführungszeichen (siehe §5.4.2.4), dass ein Zusammen- 
hang zwischen Fehlertyp OR.2 (Orthografie - Großschreibung) und Fehlertyp 
GR.10 (Grammatik - Falsche Wortstellung) und der Verwendung von Anfüh- 
rungszeichen besteht. Anhand der Spearman-Korrelationsanalyse erwies sich ein 
signifikanter starker negativer Zusammenhang zwischen der Differenz im Feh- 
lertyp GR.10 (Fehleranzahl nach KS minus Fehleranzahl vor KS) und der Qua- 
litätsdifferenz (Qualität nach KS - Qualität vor KS), siehe Tabelle 5.19. Weitere 
Korrelationen zwischen anderen einzelnen Fehlertypen und der Qualität konn- 
ten nicht nachgewiesen werden. Durch die Korrektur der Wortstellung nach der 
Verwendung der Anführungszeichen stieg die Qualität deutlich. In Tabelle 5.18 
wurde Fehlertyp GR.10 eliminiert, daraufhin stiegen die Stilqualität um 1,00 Punk- 
te und die Inhaltsqualität um 2,38 Punkte auf der Likert-Skala an. 
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Tabelle 5.19: „Anführungsz. verw“ - Korrelation zwischen den Fehler- 


typen und der Qualität 

N D p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl der GR.10 „f. Wortstellung“ 74 <,001 - ‚532 
Differenz CQ (nach KS — vor KS) 
Diff. der Anzahl der GR.10 „f. Wortstellung“ 74 <,001 —,582 
Differenz allg. Q (nach KS — vor KS) 
Diff. der Anzahl der GR.10 „f. Wortstellung“ 74 <,001 —,593 


*In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitätsvariable signifikant korrelieren. 


p: Signifikanz p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


5.4.2.5.2 Vergleich der Qualität auf Regel- und MU-Systemebene 


Wie Abbildung 5.21 zeigt, stiegen sowohl die Stilqualität als auch die Inhaltsqua- 
lität bei allen MÜ-Systemen nach der Verwendung der Anführungszeichen. 

Am höchsten stieg die Stilqualität des HMÜ-Systems Bing, nämlich um 21,2 %, 
und am wenigsten die des HMU-Systems Systran, und zwar um 9,7 %. Gleichzei- 
tig stieg die Inhaltsqualität ebenfalls am stärksten bei Bing um 18,4 % und am 
schwächsten beim NMÜ-System Google Translate um knapp 3 %. Da im Falle 
von Google Translate 83 % der Sätze sowohl vor als auch nach der Verwendung 
der Anführungszeichen korrekt übersetzt wurden, zeigte sich bei der Inhaltsqua- 
lität kaum eine Veränderung. Dennoch verbesserte die Anwendung der Regel die 
Stilqualität signifikant um 9,4 %. Alle Differenzen bei den anderen MÜ-Systemen 
erwiesen sich in der Stil- und Inhaltsqualität als signifikant (Tabelle 5.20). 


5.4.2.5.3 Korrelation zwischen den Fehlertypen und der Qualität auf Regel- und 
MÜ-Systemebene 


Auf Basis der Fehlerannotation zeigte der Vergleich der Fehlertypen vor vs. nach 
der Verwendung der Anführungszeichen (siehe §5.4.2.4), dass ein Zusammen- 
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95% CI 


Regel- und Systemebene - Vergleich der Mittelwerte vor-KS vs. nach-KS 


Stilqualität - Inhaltsqualität 


KS Reget: Anfuhrungszeichen verwenden 


$4 


= 
Googie Lucy 
MU-System 


7 
Systran 


Abbildung 5.21: „Anführungsz. verw“ — Mittelwerte der Qualität vor 
vs. nach KS bei den einzelnen MÜ-Systemen 


Tabelle 5.20: „Anführungsz. verw“ - Signifikanz der Qualitätsverände- 
rung bei den einzelnen MÜ-Systemen 


Differenz SQ Differenz CQ Differenz allg. Q 
(nach KS-vorKS) (nachKS-vorKS) (nach KS - vor KS) 
N p z N p z N p Z 
Bing 14 003 — 2,944 14 043 — 2,028 14 ¿016 —2,418 
Google 19 <,001 -3,520 19 ,093 -1,680 19 ,001 -3,250 
Lucy 13 005 —2,812 13 036 — 2,092 13 ,004 — 2,908 
SDL 15 ‚223 — 2,277 15 018 —2,374 15 ¿012 —2,503 
Systran 13 031 -2,163 13 12 -2,512 13 ‚011 — 2,554 


p: Signifikanz 
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z: Teststatistik 


nicht signifikant (p > 0,05) 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


hang zwischen Fehlertyp OR.2 (Orthografie — Großschreibung) und Fehlertyp 
GR.10 (Grammatik - Falsche Wortstellung) und der Verwendung von Anfüh- 
rungszeichen besteht. Anhand der Spearman-Korrelationsanalyse erwies sich 
bei dem HMÜ-System Bing und dem RBMÜ-System Lucy jeweils ein signifikan- 
ter starker negativer Zusammenhang zwischen der Differenz in den Fehlertypen 
OR.2 sowie GR.10 und den Qualitätsdifferenzen. Durch die Korrektur der Groß- 
schreibung und der Wortstellung nach der Verwendung der Anführungszeichen 
stieg die Qualität. Weitere Korrelationen zwischen den Fehlertypen und der Qua- 
lität konnten bei den anderen MÜ-Systemen nicht nachgewiesen werden (Tabel- 
le 5.21). 


Tabelle 5.21: „Anführungsz. verw“ - Korrelationen zwischen den Feh- 
lertypen und der Qualität bei den einzelnen MÜ-Systemen 


Bing Lucy 


N p p N p p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl OR.2 „Großs.“ 13 ‚021 —,631 
Diff. der Anzahl GR.10 ,Wort- 14 ,007 -,686 13 ‚0085 —,722 
st.“ 
Differenz CQ (nach KS — vor KS) 
Diff. der Anzahl OR.2 „Großs.“ 13  ,142 — ‚430 
Diff. der Anzahl GR.10 ,Wort- 14 Dip -,629 13 001 —,815 
st.“ 
Differenz Q (nach KS — vor KS) 
Diff. der Anzahl OR.2 „Großs.“ 13  ,126 — ‚447 
Diff. der Anzahl GR.10 ,Wort- 14 ,005 -,704 13 ‚001 —,804 
st.“ 


*In der Tabelle werden nur die Fehlertypen dargestellt, die bei mind. einer Qualitätsvariable eine 
signifikante Korrelation aufweisen. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >= 0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
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Der Zusammenhang lässt sich mithilfe von Beispielsätzen veranschaulichen: 
In Tabelle 5.16 wurden die Fehlertypen OR.2 und GR.10 eliminiert, daraufhin stie- 
gen die Stilqualitat (+ 1,50 Punkte) und die Inhaltsqualitat (+ 2,0 Punkte auf der 
Likert-Skala) deutlich. 

In Tabelle 5.22 wurde der Fehlertyp GR.10 eliminiert, daraufhin erfolgte ein 
starker Anstieg der Inhaltsqualität um 2,38 Punkte und der Stilqualität um 0,88 
Punkte auf der Likert-Skala. 


Tabelle 5.22: Beispiel 16 
Vor-KS Mit der Funktion Anwendung neu konfigurieren, kann dem 
Gerät eine neue Anwendung zugewiesen werden. 


RBMÜ Lucy Configure the function application again enables you to assign 
a new application to the device. 


Nach-KS Mit der Funktion "Anwendung neu konfigurieren", kann dem 
Gerät eine neue Anwendung zugewiesen werden. 


RBMÜ Lucy The function "Configure application again" enables you to as- 
sign a new application to the device. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Bei beiden Beispielen reflektieren die Kommentare der Bewerter in der Hu- 
manevaluation die Notwendigkeit der Großschreibung und der Hervorhebung 
der Funktionsbezeichnungen mithilfe von Anführungszeichen oder Fettforma- 
tierung. Ferner kommentierten sie aufgrund des Wortstellungsfehlers: „The sen- 
tence does not reflect the meaning of the source text at all”; „The translation fails 


in its informative function; the user has no idea what to do”? 


5.4.2.6 Vergleich der MÜ-Qualität vor vs. nach der Verwendung von 
Anführungszeichen auf Annotationsgruppenebene 


Die MÜ-Qualität?? stieg in allen Annotationsgruppen mit Ausnahme der Gruppe 
RF (Abbildung 5.22): 


2? Außerdem haben die Bewerter im letzteren Beispiel eine Formulierung mit „Reconfigure” an- 
statt „Configure again” als idiomatische Übersetzung empfohlen. Da „Configure again” an sich 
keine semantisch falsche Übersetzung ist, wurde sie nicht als Fehler annotiert. 

®Definitionen der Qualität unter §4.5.5.1. 
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a R n Z Miteiwert SO vor KS T Mittelwert CO nach KS 
Annotationsgruppenebene - Vergleich der Mittelwerte vor-KS vs. nach-KS Funasa So nach ns Enmicheert Q vor KS 
T Mittelwert C KS F Mittelwert Q 


O vor KS nach KS 
Stilqualität - Inhaltsqualität - Allgemeine Qualitat’ = = 


KS-Regel: Anfuhrungszeichen verwenden 


} 4875, T H 842 
740 
56 
71 
H 


T T T T 
FF FR RF RR 
Annotationsgruppe 


Abbildung 5.22: „Anführungsz. verw“ — Mittelwerte der Qualität vor 
vs. nach KS auf Annotationsgruppenebene 


In der Gruppe FF (Übersetzung vor und nach der Verwendung der Anführungs- 
zeichen falsch) stieg die Qualität signifikant: bei der Stilqualität (z (N = 30) = 
— 3,711 / p < ,001) bzw. (z (N = 30) = — 2,998 / p = ,003) bei der Inhaltsqualitat 
(Tabelle 5.23). 

Dieses Ergebnis ist auf zwei Gründe zurückzuführen: Erstens wurden die Feh- 
ler, die vor der Verwendung der Anführungszeichen auftraten, nach der Ver- 
wendung der Anführungszeichen zum Teil eliminiert. In Tabelle 5.24 beinhal- 
tet die Übersetzung einen orthografischen Fehler OR.2 „Großschreibung“ und ei- 
nen Wortstellungsfehler (GR.10) in der Optionsbezeichnung sowie einen seman- 
tischen Fehler SM.11 „Verwechslung des Sinns“ (in der Übersetzung der Prapo- 
sition ‚von‘) vor der Verwendung der Anführungszeichen und nur den seman- 
tischen Fehler nach der Verwendung der Anführungszeichen. Dies führte zur 
Steigerung der Stil- und Inhaltsqualität. Außerdem unterstützte die orthografi- 
sche Darstellung mithilfe der Anführungszeichen eine schnelle Verständlichkeit, 
somit stieg die Stil- und Inhaltsqualität in Tabelle 5.24 um 1,63 bzw. 1,50 Punkte 
auf der Likert-Skala. 

Zweitens gab es Fälle, in denen die Fehler sich vor sowie nach der Verwen- 
dung der Anführungszeichen wiederholten, dennoch stiegen die Stil- und In- 
haltsqualität. In Tabelle 5.25 sind die Fehlertypen OR.2 (Großschreibung), SM.11 
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Tabelle 5.23: „Anführungsz. verw“ — Signifikanz der Qualitätsverän- 
derung auf Annotationsgruppenebene 


N p Z 
(Signifikanz) (Teststatistik) 
Annotationsgruppe FF 
Differenz SQ (nach KS — vor KS) 30 < ,001 — 3,711 
Differenz CQ (nach KS — vor KS) 30 ‚003 — 2,998 
Differenz allg. Q (nach KS — vor KS) 30 < ,001 — 3,659 
Annotationsgruppe FR 
Differenz SQ (nach KS — vor KS) 24 < ,001 — 3,950 
Differenz CQ (nach KS — vor KS) 24 ‚001 — 3,402 
Differenz allg. Q (nach KS — vor KS) 24 < ,001 — 3,787 
Annotationsgruppe RF 
Differenz SQ (nach KS — vor KS) 1 - - 
Differenz CQ (nach KS — vor KS) 1 - - 
Differenz allg. Q (nach KS — vor KS) 1 - - 
Annotationsgruppe RR 
Differenz SQ (nach KS — vor KS) 19 ‚001 — 3,282 
Differenz CQ (nach KS — vor KS) 19 ,273 — 1,096 
Differenz allg. Q (nach KS — vor KS) 19 ‚005 — 2,825 
Tabelle 5.24: Beispiel 17 
Vor-KS Wählen Sie die Option Software von einer bestimmten Liste 
installieren. 


RBMÜ Lucy Select the option software of a certain list install. 


Nach-KS Wählen Sie die Option "Software von einer bestimmten Liste 
installieren". 


RBMÜ Lucy Choose the option "Install software of a certain list". 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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(Verwechslung des Sinnes) und GR.10 (Falsche Wortstellung) in den beiden Sze- 
narien vorhanden. Eine Darstellung des Oberflachentexts in Anführungszeichen 
verbesserte jedoch die Stil- und Inhaltsqualität um 1,13 bzw. 0,88 Punkte auf der 
Likert-Skala. 


Tabelle 5.25: Beispiel 18 


Vor-KS Wahlen Sie die Option Software von einer bestimmten 
Liste installieren. 


HMU Systran Select the option software of a certain list install. 


Nach-KS Wahlen Sie die Option "Software von einer bestimmten 
Liste installieren". 


HMÜ Systran Select the option “software of a certain list install”. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Erwartungsgemäß stieg die Qualität in der Gruppe FR (Übersetzung vor der 
Verwendung der Anführungszeichen falsch und nachher richtig) hochsignifikant 
bei der Stilqualität (z (N = 24) = — 3,950 / p < ,001) und bei der Inhaltsqualitat (z (N 
= 24) = — 3,402 / p = ,001), siehe Tabelle 5.23. Die Verwendung der Anführungs- 
zeichen unterstützte die MÜ-Systeme bei der syntaktischen Analyse (Parsing), 
entsprechend wurden schwerwiegende Fehler wie die falsche Wortstellung eli- 
miniert. 

Die Gruppe RF (Übersetzung vor der Verwendung der Anführungszeichen 
richtig und nachher falsch) war, wie die Aufteilung der Annotationsgruppen (sie- 
he §5.4.2.3) zeigte, sehr selten vertreten. Sie bestand aus nur zwei Übersetzungen. 
In dieser Gruppe blieb die Inhaltsqualität unverändert, während die Stilqualität 
sank. Aufgrund der kleinen Anzahl der Übersetzungen können sie allerdings als 
Ausnahmefälle betrachtet werden. 

In der Gruppe RR (Übersetzung vor und nach der Verwendung der Anfüh- 
rungszeichen richtig) war der Unterschied in der Stilqualität signifikant (z (N = 
19) = — 3,282 / p = ,001), wobei die Inhaltsqualität einen kleinen insignifikanten 
Anstieg zeigte. Dieses Ergebnis ist nachvollziehbar, denn die Übersetzung bei die- 
ser Gruppe bleibt inhaltlich identisch, dennoch wird sie durch die Verwendung 
der Anführungszeichen klarer dargestellt. In Tabelle 5.26 gab es keine Differenz 
bei der Inhaltsqualität, wobei die Stilqualität um 0,63 Punkte auf der Likert-Skala 
stieg. 
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Tabelle 5.26: Beispiel 19 


Vor-KS Mit der Funktion Geräteparameter ändern können Sie die 
Parameter eines Gerätes ändern. 


GNMÜ The function Change device parameters enables you to change 
the parameters of a device. 


Nach-KS Mit der Funktion "Geräteparameter ändern" können Sie die 
Parameter eines Gerätes ändern. 


GNMU The function "Change device parameters" enables you to change 
the parameters of a device. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet. 


5.4.2.7 Vergleich der AEM-Scores vor vs. nach der Verwendung von 
Anführungszeichen sowie die Korrelation zwischen den AEM-Scores 
und der Qualität 


Der Vergleich der AEM-Scores vor und nach der Verwendung von Anführungs- 
zeichen zeigte sowohl mit TERbase als auch mit hLEPOR eine Verbesserung der 
AEM-Scores. 


95% Cl 


Differenz TERbase (nach KS - vor KS) 
am Differenz hLEPOR (nach KS - vor KS) 


Differenz = AEM-Score nach KS minus AEM-Score vor KS 


Abbildung 5.23: „Anführungsz. verw“ — Mittelwert der Differenz der 
AEM-Scores 
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Der Mittelwert der Differenz (nach KS — vor KS) im AEM-Score pro Satz lag 
fiir TERbase bei ,069 (SD = ,158) und fiir die hLEPOR bei ,041 (SD = ,119) mit einem 
95%-Konfidenzintervall (Bootstrapping mit 1000 Stichproben), siehe Abbildung 
5.23. Die Differenzen (nach KS — vor KS) in TERbase und hLEPOR erwiesen sich 
als signifikant (z (N = 74) = — 3,853 / p < ,001) bzw. (z (N = 74) = — 3,266 / p = 
,001). Dieses Ergebnis deutet darauf hin, dass nach der Verwendung der Anfüh- 
rungszeichen weniger Edits erforderlich waren. 


5.4.2.7.1 Korrelation zwischen den Differenzen in den AEM-Scores und der Qua- 
lität 

Mithilfe des Spearman-Korrelationstests erwies sich ein signifikanter mittlerer 

positiver Zusammenhang zwischen den Differenzen der AEM-Scores von TER- 

base und hLEPOR und der Differenz der allgemeinen Qualitat”*. Tabelle 5.27 de- 

monstriert die Korrelationswerte: 


Tabelle 5.27: „Anführungsz. verw“ - Korrelation zwischen den Diffe- 
renzen der AEM-Scores und den Qualitätsdifferenzen 


N Signifikanz Korrelations- Stärke 


(p) koeffizient der 

(p) Korrelation 

Korrelation zw. Differenz 74 < ‚001 ‚431 mittlerer 

in der allg. Qualität und Zusammen- 

Differenz des TERbase- hang 
Scores (nach KS — vor KS) 

Korrelation zw. Differenz 74 ‚006 ‚319 mittlerer 

in der allg. Qualität und Zusammen- 

Differenz des hLEPOR- hang 


Scores (nach KS — vor KS) 
schwache Korrelation (p >= 0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
Dieses Ergebnis weist darauf hin, dass - nach der Verwendung der Anfüh- 


rungszeichen — die Scores der beiden AEMs sich verbesserten und die Qualität 
stieg. 


*Dje allgemeine Qualität ist Mittelwert der Stilqualität und der Inhaltsqualität, da bei der Un- 
tersuchung dieser Korrelation keine Unterscheidung zwischen der Stil- und Inhaltsqualität 
notwendig ist. 
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5.4.2.8 Analyse der ersten Regel - Validierung der Hypothesen 


Um die vorgestellten Ergebnisse auf die Forschungsfragen der Studie zurück- 
zuführen, listet dieser Abschnitt die zugrunde liegenden Hypothesen der For- 
schungsfragen zusammen mit einer Zusammenfassung der Ergebnisse der ersten 
analysierten Regel in tabellarischer Form auf. Für einen schnelleren Überblick 
steht (+) für eine Verbesserung bzw. einen Anstieg z. B. im Sinne eines Quali- 
tätsanstiegs, verbesserter AEM-Scores oder eines Anstiegs der Fehleranzahl; (—) 


steht für einen Rückgang; die grüne Farbe symbolisiert eine signifikante Verän- 


derung; neg steht für eine negative Korrelation und pos für eine positive Korrelati- 
on; <<>> steht für eine starke Korrelation und <> für eine mittlere Korrelation.” 


Regel 1: Für zitierte Oberflächentexte gerade Anführungszeichen "..." verwen- 
den 


Erster Analysefaktor: Vergleich der Fehleranzahl vor vs. nach der Verwen- 
dung von Anführungszeichen 


Fragestellung: Gibt es einen Unterschied in der Fehleranzahl nach der Anwen- 
dung der KS-Regel im Vergleich zu vor der Anwendung? 


HO - Es gibt keinen Unterschied in der Fehleranzahl vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in der Fehleranzahl vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


Auf Regelebene: 
HO wurde abgelehnt und somit H1 bestätigt. Die Fehleranzahl Anz.F. (—) 
sank nach der Verwendung der Anführungszeichen signifikant. 


Auf Regel- und MÜ-Systemebene: Lu (-) 
Bei Lucy, SDL und Systran sank die Fehleranzahl nach der Ver- SD (—) 
wendung der Anführungszeichen signifikant. Sy (-) 


Bei Bing und Google sank ebenfalls nach KS die Fehleranzahl, Bi (—) 
dennoch war der Rückgang nicht signifikant. Go (-) 


Schwache Korrelationen werden in dieser Übersicht nicht angezeigt. 
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Zweiter Analysefaktor 


FR 


Abbildung 5.24: Aufteilung der Annotationsgruppen auf Regelebene 


% 


| 
FF FR RF 


| I Bing | I Google | I Lucy | I SDL | I Systran 


Abbildung 5.25: Aufteilung der Annotationsgruppen auf Regel- und 
MU-Systemebene 
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Dritter Analysefaktor: Vergleich der Fehlertypen vor vs. nach der Verwen- 
dung von Anführungszeichen 


Fragestellung: Beinhaltet die MU bestimmte Fehlertypen vor bzw. nach der An- 
wendung der KS-Regel? 


HO - Es gibt keinen Unterschied in der Häufigkeit der einzelnen Fehlertypen 
vor vs. nach der Anwendung der KS-Regel. 


H1- Es gibt einen Unterschied in der Häufigkeit der einzelnen Fehlertypen vor 
vs. nach der Anwendung der KS-Regel. 


Resultat 


Auf Regelebene: 

H1 wurde nur für zwei Fehlertypen bestätigt. OR.2 (—) 
Die Fehleranzahl von OR.2 „Großschreibung“ und GR.10 Pal GR.10 (—) 
sche Wortstellung“ sanken nach der Verwendung der Anfüh- 
rungszeichen signifikant. 

Auf Regel- und MÜ-Systemebene: 

Bei Bing, Lucy und SDL sank die Fehleranzahl von OR.2 „Groß- OR.2 (—): 
schreibung“ nach der Verwendung der Anführungszeichen signi- Bi Lu SD 
fikant. 


Bei Bing sank die Fehleranzahl von GR.10 „Falsche Wortstellung“ GR.10 (-): 
nach der Verwendung der Anführungszeichen signifikant. Bi 


Alle weiteren Veränderungen waren nicht signifikant. 


Vierter Analysefaktor: Vergleich der MÜ-Qualität vor vs. nach der Verwen- 
dung von Anführungszeichen 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität der MÜ 
der KS-Stelle nach der Anwendung der KS-Regel im Vergleich zu vor der 
Anwendung? 


HO - Es gibt keinen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


H1- Es gibt einen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 
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Resultat 


Auf Regelebene: 

HO wurde abgelehnt und somit H1 bestätigt. SO (+) 
Sowohl die Stil- als auch die Inhaltsqualität stiegen signifi- CQ (+) 
kant. 


Auf Regel- und MÜ-Systemebene: SQ (+) CQ (+) 
Die Stil- und Inhaltsqualität stiegen bei Bing, Lucy, SDL und Bi Lu BiLu 
Systran signifikant. SD Sy SD Sy 


Bei Google stieg die Stilqualität signifikant und die Inhalts- SỌ (+) CQ (+) 
qualität nicht signifikant. Go Go 


Fünfter Analysefaktor: Korrelation zwischen den Fehlertypen und der Quali- 
tät 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der Fehler- 
anzahl eines bestimmten Fehlertyps (Fehleranzahl nach KS — vor KS) und 
der Differenz der Stil- bzw. Inhaltsqualität (Qualität nach KS — vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der Fehleranzahl 
eines bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsquali- 
tät. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der Fehleranzahl ei- 
nes bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsqualität. 


Resultat 


Auf Regelebene: 

H1 wurde nur für einen Fehlertyp bestätigt. neg GR.10 <<>> SQ 
Es bestand ein signifikanter starker negativer Zusam- neg GR.10 <<>> 
menhang zwischen der Differenz der Fehleranzahl des CQ 

GR.10 „Falsche Wortstellung“ und der Differenz der Stil- 

und Inhaltsqualität. 


Auf Regel- und MÜ-Systemebene: 

Bei Bing bestand ein signifikanter starker negativer Zu- Bi 

sammenhang zwischen der Differenz der Fehleranzahl neg GR.10 <<>> SQ 
des GR.10 „Falsche Wortstellung“ und der Differenz der neg GR.10 <<>> 
Stil- und Inhaltsqualität. CQ 
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Bei Lucy bestand ein signifikanter starker negativer Zu- Lu 

sammenhang zwischen der Differenz der Fehleranzahl neg GR.10 <<>> SQ 
des GR.10 „Falsche Wortstellung“ und der Differenz der neg GR.10 <<>> 
Stil- und Inhaltsqualitat sowie ein signifikanter starker CQ 

negativer Zusammenhang zwischen der Differenz der neg OR.2 <<>>SQ 
Fehleranzahl des OR.2 „Großschreibung“ und der Diffe- 

renz der Stilqualität. 


Alle weiteren Korrelationen waren nicht signifikant. 


Sechster Analysefaktor: Vergleich der MÜ-Qualität vor vs. nach der Verwen- 
dung von Anführungszeichen auf Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität bei den 
einzelnen Annotationsgruppen nach der Anwendung der KS-Regel im Ver- 
gleich zu vor der Anwendung? 


HO - Bei den Annotationsgruppen gibt es keinen Qualitätsunterschied vor vs. 
nach der Anwendung der KS-Regel. 


H1- Beiden Annotationsgruppen gibt es einen Qualitätsunterschied vor vs. nach 
der Anwendung der KS-Regel. 


Resultat 


H1 wurde nur zum Teil bestätigt: SO (+) 
Bei den Annotationsgruppen FF und FR stiegen die Stil- und In- CQ (+) 
haltsqualität nach der Verwendung der Anführungszeichen si- 
gnifikant. 


Bei der Annotationsgruppe RR stieg die Stilqualität signifikant SQ (+) 
und die Inhaltsqualität nicht signifikant. CQ (+) 


Bei der Annotationsgruppe RF sank die Stilqualität nicht signifi- SQ (—) 
kant und blieb die Inhaltsqualitat unverandert. CQ (=) 


Siebter Analysefaktor: Vergleich der AEM-Scores vor vs. nach der Verwen- 
dung von Anführungszeichen 


Fragestellung: Gibt es einen Unterschied in den AEM-Scores von TERbase bzw. 
hLEPOR nach der Anwendung der KS-Regel im Vergleich zu vor der An- 
wendung? 
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HO - Es gibt keinen Unterschied in den AEM-Scores vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in den AEM-Scores vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. TERbase (+) 
AEM-Scores sowohl von TERbase als auch von hLEPOR ver- hLEPOR (+) 
besserten sich nach der Verwendung von Anführungszei- 

chen signifikant. 


Achter Analysefaktor: Korrelation zwischen den Differenzen der AEM-Scores 
und der Qualität 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der AEM- 
Scores von TERbase bzw. hLEPOR (Mittelwert der AEM-Scores nach KS 
— vor KS) und der Differenz der allgemeinen Qualität (Qualität nach KS — 
vor KS) 


HO - Es besteht kein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. pos TERbase <> Q 
Es bestand ein signifikanter mittlerer positiver Zusam- pos hLEPOR <> Q 
menhang zwischen der Differenz der AEM-Scores von 

TERbase und hLEPOR und der Differenz der allgemei- 

nen Qualitat. 


5.4.3 ZWEITE REGEL: Funktionsverbgefiige vermeiden 


5.4.3.1 Uberblick 


Im Folgenden wird die KS-Regel „Funktionsverbgefüge vermeiden" kurz beschrie- 
ben.?° Zudem wird zusammenfassend und anhand eines Beispiels demonstriert, 
wie die Regel bei der Analyse angewendet wurde. Anschließend wird die Auftei- 
lung der Testsätze im Datensatz dargestellt: 


Die für diese Regel relevanten Kontraste im Sprachenpaar DE-EN sind unter §4.5.2.3 erörtert. 
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Beschreibung der KS-Regel: Funktionsverbgefiige vermeiden (tekom-Regel-Nr. 
L 103) 


Nach dieser Regel soll das bedeutungstragende Verb anstatt des Funktions- 
verbgefiiges verwendet werden (tekom 2013: 107). 


Begriindung: Die Verwendung des bedeutungstragenden Verbs lasst den 
Satz konkreter und direkter ausfallen (ebd.). 


Umsetzungsmuster: 
Vor KS: mit Funktionsverbgefiige 
Nach KS: Das Funktionsverbgefüge wird durch das bedeutungstragende 
Verb ersetzt. 


KS-Stelle 
Vor KS: das Funktionsverbgefüge (FVG) 
Nach KS: das bedeutungstragende Verb 
Beispiele 


Im oberen Abschnitt können Sie Einstellungen für die angezeigten Module 
vornehmen . 


Im oberen Abschnitt können Sie die angezeigten Module einstellen . 


Aufteilung der Testsätze: Der Datensatz besteht aus 24 verschiedenen Funkti- 
onsverbgefügen, die an unterschiedlichen Stellen in den Sätzen erscheinen 
und die zwei Formen eines Funktionsverbgefüges umfassen, nämlich: 


12 Funktionsverbgefüge aus Funktionsverb + Präpositionalphrase (z. B. zur 
Anwendung kommen) und 


12 Funktionsverbgefüge aus Funktionsverb + Nominalphrase (z. B. Aus- 
wahl treffen). 


Im Folgenden werden die Ergebnisse der einzelnen Analysefaktoren präsen- 
tiert. 
5.4.3.2 Vergleich der Fehleranzahl mit vs. ohne Funktionsverbgefüge 


Die Fehleranzahl sank deutlich um 56,7 % von 90 Fehlern im Falle der Verwen- 
dung von Funktionsverbgefügen (M = ‚75 / SD = ‚928 / N = 120) auf 39 Fehler 
ohne Funktionsverbgefüge (M = ‚33 / SD = ‚552 / N = 120), Abbildung 5.26 und 
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Abbildung 5.27. Der Mittelwert der Differenz (nach KS — vor KS) der Fehleran- 
zahl pro Satz lag somit bei — ,43 (SD =,984) mit einem 95%-Konfidenzintervall 
zwischen einem Minimum von — ,61 (SD = ,805) und einem Maximum von — ,26 
(SD = 1,145) (Bootstrapping mit 1000 Stichproben). Die Differenz (nach KS — vor 
KS) der Fehleranzahl erwies sich als hochsignifikant (z (N = 120) = — 4,401 / p < 
,001). 


150 p 
100} 90 
O 
x 
50 F 39 8 
f 
Anzahl der fehler 
innerh. KS vor KS 
Anzahl der Fehler I Anzahl der Fehler innerh. KS vor KS 
innerh. KS nach KS I Anzahl der Fehler innerh. KS nach KS 


Abbildung 5.26: „FVG verm“ - Fehler- Abbildung 5.27: „FVG verm“ - Mittel- 
summe vor vs. nach KS wert der Fehleranzahl pro Satz vor vs. 
nach KS 


Der Datensatz deckte gleichermaßen die zwei Formen eines Funktionsverbge- 
füges (12 aus Funktionsverb + Präpositionalphrase bestehende Funktionsverbge- 
füge (z. B. ‚zur Anwendung kommen‘) und 12 aus Funktionsverb + Nominalphra- 
se bestehende Funktionsverbgefiige (z. B. ,Auswahl treffen‘)) ab. Im Rahmen der 
Fehlerannotation wurde untersucht, ob eine der beiden Formen mit mehr Feh- 
lern (vor der KS-Anwendung) verbunden war bzw. ob die KS-Anwendung bei 
einer der beiden Formen zur stärkeren Reduzierung der Fehleranzahl beitrug. 

Wie Tabelle 5.28 zeigt, war der Rückgang der Fehleranzahl (— 3,75) im Falle 
der aus Funktionsverb + Präpositionalphrase bestehenden Funktionsverbgefüge 
im Vergleich zu den aus Funktionsverb + Nominalphrase bestehenden Funktions- 
verbgefiigen (— 1,33) größer. Eine genauere Untersuchung des Datensatzes zeigte 
außerdem, dass die Anwendung der KS-Regel sich in zwei Fällen als besonders 
sinnvoll erwies: 
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Tabelle 5.28: Daten der untersuchten FVG-Formen 


FVG FVG 
aus Funktionsverb + aus Funktionsverb + 
Prapositionalphrase Nominalphrase 
Anzahl der Falle 12x 5 MU 12x 5 MU 
Durchschnittliche Diff. der — 3,75 — 1,33 
Fehleranzahl (nach KS - vor 
KS) 


Erstens — ein Funktionsverbgefüge besteht aus einem Substantiv und einem 
Funktionsverb. Wenn das Substantiv ein Teil eines Kompositums ist (z. B. Flecken- 
behandlung durchführen, Küchenmontage durchführen), stellt das Zerlegen dieses 
Kompositums (d. h. die Tokenisierung) und anschließend das Parsen des Substan- 
tives zusammen mit dem Funktionsverb als zusammengehörender Struktur für 
die älteren MÜ-Ansätze (SMÜ, RBMÜ und HMÜ Systeme) eine komplexe Aufga- 
be dar. In Tabelle 5.29 wurde das Kompositum ‚Küchenmöbelmontagen‘ bei der 
Verwendung des Funktionsverbgefüges vom HMÜ-System Bing gar nicht über- 
setzt bzw. vom RBMÜ-System Lucy falsch übersetzt. Nach der Verwendung des 
bedeutungstragenden Verbs (nach KS) lieferten beide Systeme korrekte Überset- 
zungen. 

Zweitens — wenn das Funktionsverbgefüge kein Pendant bzw. keine direkte 
Übersetzung im Englischen hat (z. B. Einstellungen vornehmen, Schaden neh- 
men, Reinigung vornehmen), erwies sich die Verwendung des bedeutungstragen- 
den Verbs ebenfalls als sinnvoll. In Tabelle 5.30 wurde der Kollokationsfehler in 
‚make the cleaning’ nach der Verwendung des bedeutungstragenden Verbs ‚rei- 
nigen‘ (nach KS) behoben. 

Es gab insgesamt 19 falsche Ubersetzungen, die eine dieser Eigenschaften auf- 
weisen. Durch das Vermeiden des Funktionsverbgefiiges wurden 13 von den 19 
falschen Ubersetzungen (68,4 %) korrigiert. 

All diese problematischen Falle des Funktionsverbgefiiges (prapositionale FVG- 
Konstruktion, FVG in Verbindung mit Kompositum und FVG ohne englisches 
Pendant) gingen mit Transfer- und Parsing-Problemen einher. Somit wurde das 
Funktionsverbgefüge wörtlich übersetzt, was zu lexikalischen und semantischen 
Fehlern führte (wie in der Analyse der Fehlertypen und ihrer Korrelationen mit 
den Qualitätsveränderungen unter §5.4.3.4 und §5.4.3.5 detailliert dargestellt). 
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Tabelle 5.29: Beispiel 20 


Vor-KS Küchenmöbelmontagen dürfen nur von geschulten Fachleuten 
durchgeführt werden. 


HMÜBing Küchenmöbelmontagen may only be carried out by trained 
specialists. 

RBMÜLucy Kitchen piece of furniture assemblies may only be carried out 
by trained specialists. 


Nach-KS Küchenmöbel dürfen nur von geschulten Fachleuten montiert 
werden. 


HMÜBing Kitchen furniture may only be installed by trained specialists. 
RBMÜ Lucy Kitchen furniture may only be mounted by trained specialists. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Tabelle 5.30: Beispiel 21 


Vor-KS Die Reinigung der Küchenmöbel sollten Sie mit einem leicht 
feuchten Tuch vornehmen. 


HMÜ Bing You should make the cleaning of the kitchen furniture with a 
slightly damp cloth. 


Nach-KS Sie sollten die Küchenmöbel mit einem leicht feuchten Tuch rei- 
nigen. 


HMÜBing You should clean the kitchen furniture with a slightly damp 
cloth. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


277 


5 Quantitative und qualitative Analyse der Ergebnisse 


5.4.3.2.1 Vergleich der Fehleranzahl auf Regel- und MU-Systemebene 


Durch die Verwendung des bedeutungstragenden Verbs (nach KS) wurden viele 
Kollokationsfehler vermieden, die bei der Verwendung des Funktionsverbgefü- 
ges (vor KS) auftraten. Die Fehleranzahl nach der Umsetzung der KS-Regel sank 
bei allen Systemen: 


= 92,2 % 
20 — 63,6 % 
— 64,0 % 
20| — 41,2% 
15 F 
WÉI 
z 
z 
5 
YN 
10 | 
— 66,7% 
J 
0 
Bing L Lucy Systran 


li Anzahl der fehler innerh. KS vor KS 
li Anzahl der Fehler innerh. KS nach KS 


Signifikante Differenz vor vs. nach KS 


Abbildung 5.28: „FVG verm“ - Summe der Fehleranzahl vor vs. nach 
KS bei den einzelnen MÜ-Systemen 


Signifikant war der Rückgang bei dem RBMÜ-System Lucy (Mdiff = — ,583; z 


(N = 24) = — 2,501 / p = ,012); dem SMU-System SDL (Mdiff = — ,667; z (N = 24) 
= — 2,358 / p = ,018); dem HMU-System Systran (Mdiff = — ,500; z (N = 24) = 
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— 2,144 / p = ,032). Bei dem NMU-System Google war die Fehleranzahl sowohl 
vor als auch nach der Umsetzung der KS-Regel gering (Mdiff = — ,083). Bei dem 
HMU-System Bing war die Differenz (nach KS — vor KS) sehr niedrig (Mdiff = 
23,902), 

Das NMU-System Google Translate war in der Lage, die Sätze mit und ohne 
Funktionsverbgefüge korrekt - und in mehreren Fällen sogar identisch — zu über- 
setzen, während die Übersetzungen der anderen MÜ-Systeme Fehler beinhalte- 
ten. In Tabelle 5.30 konnte das HMÜ-System Bing erst nach der Verwendung des 
bedeutungstragenden Verbs (nach KS) den Satz korrekt übersetzen. Das SMÜ- 
System SDL konnte denselben Satz weder mit Funktionsverbgefüge noch mit 
dem bedeutungstragenden Verb korrekt übersetzen (die Fehlertypen werden un- 
ter §5.4.3.4 diskutiert), während die Übersetzung vom NMU-System Google Trans- 
late in beiden Fällen trotz der veränderten Struktur des Ausgangssatzes korrekt 
und identisch war (Tabelle 5.31). 


Tabelle 5.31: Beispiel 22 


Vor-KS Die Reinigung der Küchenmöbel sollten Sie mit einem leicht 
feuchten Tuch vornehmen. 


SMÜSDL The cleaning of the kitchen furniture you should start with a 
slightly damp cloth. 
GNMÜ You should clean the kitchen furniture with a slightly damp cloth. 


Nach-KS Sie sollten die Küchenmöbel mit einem leicht feuchten Tuch rei- 
nigen. 


SMÜSDL You should set the kitchen furniture with a slightly damp cloth. 
GNMÜ You should clean the kitchen furniture with a slightly damp cloth. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Sogar ein gängiges Funktionsverbgefüge wie ‚zur Verfügung stehen‘ war für 
alle MÜ-Systeme problematisch zu übersetzen, während das NMÜ-System es pro- 
blemlos übersetzen konnte und erneut sowohl mit dem Funktionsverbgefüge als 
auch mit dem bedeutungstragenden Verb eine identische Übersetzung lieferte. 
Tabelle 5.32 veranschaulicht, wie die Übersetzung des RBMÜ-Systems Lucy vor 
und nach der Anwendung der KS-Regel Fehler beinhaltete, während die Über- 
setzung des NMÜ-Systems Google Translate in den beiden Szenarien fehlerfrei 
war. 
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Tabelle 5.32: Beispiel 23 


Vor-KS Auf der Startseite stehen die folgenden Funktionen zur Aus- 
wahl zur Verfiigung. 


RBMU Lucy On the Start page, the following functions are to choose from 


availably. 

GNMU The following functions are available for selection on the start 
page. 

Nach-KS Auf der Startseite sind die folgenden Funktionen zur Auswahl 
vorhanden. 


RBMU Lucy On the Start page, the following functions to choose from are 
available. 
GNMU The following functions are available for selection on the start 


page. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.3.3 Aufteilung der Annotationsgruppen 


Knapp 42 % der Ubersetzungen waren sowohl mit Funktionsverbgefiige als auch 
mit dem bedeutungstragenden Verb richtig (Gruppe RR). Außerdem waren fast 
21% der Übersetzungen in beiden Szenarien falsch (Gruppe FF). Gleichzeitig wur- 
den ungefähr 30 % falsche Übersetzungen von Sätzen mit Funktionsverbgefügen 
nach der Verwendung des bedeutungstragenden Verbs korrigiert (Gruppe FR) 
(siehe Abbildung 5.29). Auf der anderen Seite gab es 10 Fälle (8,3 %), die nur nach 
der Verwendung des bedeutungstragenden Verbs (nach KS) falsch übersetzt wur- 
den (Gruppe RF) (siehe Abbildung 5.29). 

Hierbei handelte es sich zum Teil um semantische Fehler und in einzelnen 
Fällen um grammatische Fehler. Aufgrund der kleinen Anzahl der Fälle dieser 
Gruppe konnte jedoch kein bestimmtes Fehlermuster erkannt werden. Im näch- 
sten Abschnitt werden die Fehlertypen genauer besprochen. 


5.4.3.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MÜ- 
Systemebene 


Eine genauere Analyse der einzelnen MÜ-Systeme bei der Regel „Funktionsverb- 
gefüge vermeiden“ zeigt Folgendes: 


280 


25 


20 


15 


Anzahl 


10 
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Abbildung 5.29: „FVG verm“ - Aufteilung der Annotationsgruppen 
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Die oben angezeigten Prozentzahlen sind für alle Systeme, d. h. systemübergreifend, (N = 120) 


berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.30: „FVG verm“ - Aufteilung der Annotationsgruppen bei 
den einzelnen MÜ-Systemen 
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Die größten Prozentsätze von drei Systemen wurden bei der Gruppe RR ver- 
zeichnet. Diese sind das NMU-System Google mit 88 %, das HMU-System Bing 
mit 46 % sowie das SMU-System SDL mit 33 % (Abbildung 5.30). Die zwei wei- 
teren Systeme, das RBMU-System Lucy und das HMU-System Systran, waren 
stärker repräsentiert bei der Gruppe FR (im Vergleich zur Gruppe RR), jeweils 
mit 42 % (Abbildung 5.30). Durch das Vermeiden von den Funktionsverbgefügen 
konnten sämtliche Kollokationsfehler behoben werden. Dennoch blieb die Grup- 
pe FF bei allen Systemen mit Ausnahme von Google relativ groß (mehr als 20 %) 
(Abbildung 5.30). Im folgenden Abschnitt werden die aufgetreten Fehlertypen 
ins Visier genommen. 


5.4.3.4 Vergleich der Fehlertypen mit vs. ohne Funktionsverbgefüge 


Nach der Formulierung des Satzes ohne Funktionsverbgefüge sank die Fehler- 
anzahl bei dem Fehlertyp SM.13 „Semantik - Kollokationsfehler“ deutlich, und 
zwar von 38 auf 2 (— 94,7 % / Mv = ‚32 / SDv = ‚502 / Mn = ‚02 / SDn = ,129 / 
N = 120) (Abbildung 5.31). Der Unterschied in der Fehleranzahl erwies sich als 
hochsignifikant (p < ,001 / N = 120). 

Erwartungsgemäß ging die Anzahl der Kollokationsfehler nach der Anwen- 
dung der KS-Regel zuriick, denn nicht alle deutschen Funktionsverbgefiige ha- 
ben ein Pendant im Englischen. Ein Beispiel hierfür ist das Funktionsverbgefüge 
‚in Betrieb nehmen‘ (siehe Tabelle 5.33). Hier konnte das MÜ-System nur das 
bedeutungstragende Verb (nach KS) richtig übersetzen. 


Tabelle 5.33: Beispiel 24 


Vor-KS Der Bediener darf erst die Maschine in Betrieb nehmen, 
wenn er die Betriebsanleitung gelesen hat. 


HMÜ Systran The operator may only take the machine in enterprise after 
reading the operating instructions. 


Nach-KS Der Bediener darf erst die Maschine starten, wenn er die Be- 
triebsanleitung gelesen hat. 


HMU Systran The operator may only start the machine after reading the 
operating instructions. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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— 94,7% 
40 7 38 


30 = 


20 = 


Summe 


un 718,2% 


| B vor KS | I nach KS 


"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken reprasentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. „OR_1.v“ für ,OR_1: orthografischer Fehler Nr. 1“ und 
„v: vor KS“; ,OR_1.n“ ware entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario („n“). 
“ Signifikante Differenz vor vs. nach KS 

OR.1: Orthografie — Zeichensetzung 

OR.2: Orthografie - Großschreibung 

LX.3: Lexik - Wort ausgelassen 

LX.4: Lexik - Zusätzliches Wort eingefügt 

LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 

LX.6: Lexik - Konsistenzfehler 

GR.7: Grammatik — Falsche Wortart / Wortklasse 

GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 

GR.9: Grammatik - Kongruenzfehler (Agreement) 

GR.10: Grammatik - Falsche Wortstellung 

SM.11: Semantik - Verwechslung des Sinns 

SM.12: Semantik - Falsche Wahl 

SM.13: Semantik - Kollokationsfehler 


Abbildung 5.31: „FVG verm“ - Summe der Fehleranzahl der einzelnen 
Fehlertypen vor vs. nach KS 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Bei allen anderen Fehlertypen hat sich die Fehleranzahl vor im Vergleich zu 
nach der Anwendung der Regel nicht (signifikant) verandert, z. B. sank der se- 
mantische Fehlertyp SM.11 „Verwechslung des Sinns“ von 11 auf 9 (— 18,2 %) Feh- 
ler und der lexikalische Fehlertyp LX.4 „Zusätzliches Wort eingefügt“ sank von 7 
auf 2 Fehler (— 71,4 %; ein aufgrund der kleinen Fehleranzahl nicht signifikanter 
Rückgang), während der semantische Fehlertyp SM.12 „Falsche Wahl“ unverän- 
dert blieb (7 Fehler vor und nach KS). 


5.4.3.4.1 Vergleich der Fehlertypen auf Regel- und MÜ-Systemebene 


Eine genauere Untersuchung der Fehlertypen bei den verschiedenen MÜ-Syste- 
men zeigt (Abbildung 5.32), dass Fehlertyp SM.13 „Semantik - Kollokationsfeh- 
ler“ bei zwei Systemen sank (RBMÜ-System Lucy und HMÜ-System Systran) und 
bei drei Systemen vollständig behoben wurde (HMÜ- System Bing, NMÜ-System 
Google und SMÜ-System SDL). 

Nur bei dem RBMU-System Lucy (ein Rückgang von 10 auf 1 Fehler (— 90 %)) 
und dem HMU-System Systran (ein Riickgang von 16 auf 1 Fehler (— 93,8 %)) 
erwies sich die Differenz bei dem SM.13 Kollokationsfehler als signifikant. 


Tabelle 5.34: „FVG verm“ — Fehlertypen mit signifikanter Veränderung 
nach KS 


N Mittelwert Standard- Signifikanz 
abweichung (McNemar-Test) 


SM.13 „Kollokationsfehler“ 

Lucy 24 vor KS = ‚42 vor KS = ‚504 p = ‚004 
nach KS = 04 nach KS = 204 

Systran 24 vorKS =,67 vor KS = ‚637 p < ‚001 
nach KS = ,04 nach KS = 204 


Tabelle 5.35 zeigt den bei dem RBMU-System Lucy aufgetretenen Kollokati- 
onsfehler im Falle der Verwendung des Funktionsverbgefüges und wie er nach 
der Verwendung des bedeutungstragenden Verbs vermieden wurde. 

Wie Abbildung 5.32 zeigt, gab es bei dem zweiten HMU-System (Bing) sowie 
bei dem SMU-System SDL bei mehreren Fehlertypen eine kleine Fehleranzahl. 
Schließlich war bei dem NMU-System Google Translate die Fehleranzahl im All- 
gemeinen sehr gering (insgesamt 3 Fehler vor KS und 1 Fehler nach KS), wie die 
Analyse der Fehleranzahl (Abbildung 5.28) zeigt. 
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Summe 
"Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 
folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 
**Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 
Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen vorkamen: In dieser 
Grafik kamen die Fehlertypen 1, 2 und 6 bei gar keinem MÜ-System vor. Zudem kamen die 
Fehlertypen 5, 7 und 9 nur einmal jeweils bei 1 bis 3 MÜ-Systemen in vereinzelten Fällen vor. 


Abbildung 5.32: „FVG verm“ - Summe der Fehleranzahl der Fehlerty- 
pen vor vs. nach KS bei den einzelnen MÜ-Systemen 
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Tabelle 5.35: Beispiel 25 


Vor-KS Wird diese Regel nicht beachtet, kann der Motor Schaden neh- 
men. 


RBMU Lucy If this rule is not observed, the motor can take damage. 


Nach-KS Wird diese Regel nicht beachtet, kann der Motor beschädigt 
werden. 


RBMU Lucy If this rule is not observed, the motor can be damaged. 


Die KS-Stelle ist fett dargestellt. Blau wird fiir die korrekten Tokens verwendet; Rot fiir die 
falschen Tokens. 


5.4.3.5 Vergleich der MÜ-Qualität mit vs. ohne Funktionsverbgefiige sowie 
die Korrelation zwischen den Fehlertypen und der Qualitat 


Sowohl die Stil- als auch die Inhaltsqualitat?” stiegen nach der Vermeidung von 
Funktionsverbgefügen. Auf den ersten Blick erkennt man in Abbildung 5.34, dass 
der Einfluss auf die Stilqualität größer als der auf die Inhaltsqualität war. Die 
Übersetzung des Funktionsverbgefüges war in vielen Fällen mit dem semanti- 
schen Fehlertyp SM.13 „Kollokationsfehler“ verbunden (siehe 85.4.3.4). Nachdem 
das Funktionsverbgefüge vermieden wurde (nach KS), sank die Anzahl der Kollo- 
kationsfehler stark. Dies trug zu einer besseren Verständlichkeit (höhere Inhalts- 
qualität) und gleichzeitig zu einer deutlich natürlicheren Formulierung (höhere 
Stilqualität) bei. 

Die Stilqualität verbesserte sich um 8,2 % (Mv = 4,03 / SDv = ‚583 / Mn = 
4,36 / SDn = ‚449 / N = 84). Die Inhaltsqualität erhöhte sich um 5,2 % (Mv = 
4,25 / SDv = ‚792 / Mn = 4,47 / SDn = ‚681 / N = 84), siehe Abbildung 5.33. Der 
Mittelwert der Differenz (nach KS — vor KS) der vergebenen Qualitätspunkte pro 
Satz lag für die Stilqualität bei ‚330 (SD = ,615) mit einem 95%-Konfidenzintervall 
zwischen einem Minimum von ‚197 und einem Maximum von ‚464 und für die 
Inhaltsqualität bei ‚219 (SD = ,948) mit einem 95%-Konfidenzintervall zwischen 
einem Minimum von ‚013 und einem Maximum von ‚425 (Bootstrapping mit 1000 
Stichproben), siehe Abbildung 5.34. Die Differenzen (nach KS — vor KS) in der 
Stil- und Inhaltsqualität erwiesen sich als signifikant (z (N = 84) = — 4,036 / p < 
‚001) bzw. (z (N = 84) = — 2,180 / p = ,029). 

Wie unter §5.4.3.2 dargestellt, waren die Funktionsverbgefüge der Gruppe 
Funktionsverb + Präpositionalphrase mit einem größeren Rückgang der Fehler- 


Definitionen der Qualität unter §4.5.5.1. 
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4,32 . i 
I Differenz SQ (nach KS - vor KS) 
4,62 I Differenz CO (nach KS - vor KS) 
4,26 ia T Differenz Q (nach KS - vor KS) 
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kW 4,08 5 
4,42 Së 
IO 
a 
së Mittelwert SO vor KS 
Si Mittelwert SQ nach KS 
® Mittelwert CO vor KS 
Mittelwert CQ nach KS 
« Mittelwert Q vor KS 
H Mittelwert Q nach KS 
Abbildung 5.33: „FVG verm“ - Mittel- Abbildung 5.34: „FVG verm“ - Mittel- 
werte der Qualität vor und nach KS wert der Qualitätsdifferenzen 


anzahl (im Vergleich zu der Gruppe Funktionsverb + Nominalphrase) verbunden. 
Ebenfalls zeigte die Humanevaluation, dass das Vermeiden der Funktionsverbge- 
füge im Falle der Gruppe Funktionsverb + Präpositionalphrase zu einer stärkeren 
Qualitätsverbesserung beitrug (+ 0,34 im Vergleich zu + 0,23 Qualitätsanstieg bei 
der Gruppe Funktionsverb + Nominalphrase) (Tabelle 5.36).”° 


Tabelle 5.36: Qualitätsdifferenz bei den untersuchten FVG-Formen 


FVG FVG 

aus Funktionsverb + aus Funktionsverb + 

Präpositionalphrase Nominalphrase 

Anzahl der Fälle 43 MU 36 MÜ 
Durchschnittliche Diff. der + 0,34 + 0,23 


Allg. Q (nach KS — vor KS) 


Durch die Humanevaluation wird ferner ersichtlich (Abbildung 5.35), dass alle 
Qualitätskriterien sich nach KS verbesserten (insbesondere die Verständlichkeit 
(CQ2) sowie alle Stilqualitätskriterien). 


Die Qualitätsverbesserung bezieht sich hier auf die allgemeine Qualität, d. h. der Mittelwert 
der Stilqualität und der Inhaltsqualität. 
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SQ1_v SOL pn SQ2_v SQ2_n SQ3_v SQ3_n CQ1_v COl_n CQ2_v CQ2_n 
SQ1: Ü ist nicht korrekt bzw. nicht klar dargestellt, d. h. nicht orthografisch. 
SQ2: Ü ist nicht ideal für die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: Ü klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. 
CQ2: Ü ist nicht leicht zu verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.35: „FVG verm“ - Vergleich der Qualitätskriterien 


In Tabelle 5.37 wurde der Kollokationsfehler in ‚does ... be in the use‘ behoben, 
nachdem das Funktionsverbgefüge vermieden wurde (nach KS): 

Daraufhin stiegen sowohl die Inhaltsqualität als auch die Stilqualität, wobei 
der Anstieg bei der Stilqualität höher war (SQdiff + 1,50 und CQdiff + 0,13 auf der 
Likert-Skala). 


5.4.3.5.1 Korrelation zwischen den Fehlertypen und der Qualität 


Auf Basis der Fehlerannotation zusammen mit der Humanevaluation gibt uns ei- 
ne Spearman-Korrelationsanalyse Aufschluss, wie die Veränderung bei der Feh- 
leranzahl bei jedem Fehlertyp (Anz. nach KS — Anz. vor KS) mit den Qualitätsun- 
terschieden (Q. nach KS — Q. vor KS) zusammenhängt. Mithilfe des Spearman- 
Tests konnten mehrere signifikante Korrelationen nachgewiesen werden: 

Bei der Stilqualitat gab es einen signifikanten negativen mittleren Zusammen- 
hang zwischen der Differenz in dem lexikalischen Fehlertyp LX.4 „Zusätzliches 
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Tabelle 5.37: Beispiel 26 


Vor-KS Steht die Maschine nicht im Einsatz, den Hauptschalter auf "0" 
setzen. 


RBMU Lucy If the machine does not be in the use, set the main switch to 
DOT. 

Nach-KS Wird die Maschine nicht verwendet, den Hauptschalter auf "0" 
setzen. 


RBMU Lucy If the machine is not used, set the main switch to "0". 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Wort eingefügt“ sowie dem semantischen Fehlertyp SM.11 „Verwechslung des 
Sinns“ und der Differenz in der Stilqualität; sowie einen signifikanten negativen 
schwachen Zusammenhang zwischen der Differenz im semantischen Fehlertyp 
SM.13 „Kollokationsfehler“ und der Differenz in der Stilqualität (Tabelle 5.38). 

Bei der Inhaltsqualität gab es einen signifikanten negativen mittleren Zusam- 
menhang zwischen der Differenz im semantischen Fehlertyp SM.12 „Falsche Wahl“ 
und der Differenz in der Inhaltsqualität; sowie einen signifikanten negativen 
schwachen Zusammenhang zwischen der Differenz in den Fehlertypen LX.3 (Le- 
xik — Wort ausgelassen), LX.4 (Lexik - Zusätzliches Wort eingefügt) sowie SM.13 
(Semantik - Kollokationsfehler) und der Differenz in der Inhaltsqualität (nächste 
Tabelle 5.38). 

Weitere Korrelationen zwischen anderen einzelnen Fehlertypen und der Qua- 
lität konnten nicht erwiesen werden. 

Diese signifikanten negativen Korrelationen deuten darauf hin, dass sobald 
die Fehleranzahl der genannten Fehlertypen sank, die Qualität stieg. Ein Beispiel 
hierfür ist der folgende Satz (Tabelle 5.39). 

In diesem Beispiel kam bei der Verwendung des Funktionsverbgefüges der le- 
xikalische Fehlertyp LX.4 „Zusätzliches Wort eingefügt“ in ‚to make a selection‘ 
vor. Bei einer Formulierung des Satzes mit dem bedeutungstragenden Verb wur- 
de der Fehler behoben. Daraufhin stiegen die Stil- und Inhaltsqualität jeweils um 
1,00 Punkte auf der Likert-Skala. 
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Tabelle 5.38: „FVG verm“ - Korrelation zwischen den Fehlertypen und 


der Qualität 

N p p 
Differenz SQ (nach KS — vor KS) 
Differenz der Anzahl der LX.3 „W. fehlt“ 84 ‚544 ‚067 
Differenz der Anzahl der LX.4 „W. extra“ 84 005  —,306 
Differenz der Anzahl der SM.11 „Sinn“ 84 ‚003 —,317 
Differenz der Anzahl der SM.12 „f. Wahl“ 84 ‚184 —,146 
Differenz der Anzahl der SM.13 „Kollok.“ 84 ‚014 —,267 
Differenz CQ (nach KS — vor KS) 
Differenz der Anzahl der LX.3 „W. fehlt“ 84 ‚008 —,286 
Differenz der Anzahl der LX.4 „W. extra“ 84 ‚023 —,248 
Differenz der Anzahl der SM.11 „Sinn“ 84 411 —,175 
Differenz der Anzahl der SM.12 ,f. Wahl“ 84 <,001 —,375 
Differenz der Anzahl der SM.13 „Kollok.“ 84 ‚048 —,216 
Differenz allg. Q (nach KS — vor KS) 
Differenz der Anzahl der LX.3 „W. fehlt“ 84 ‚023 —,248 
Differenz der Anzahl der LX.4 ,W. extra“ 84 004  —,307 
Differenz der Anzahl der SM.11 „Sinn“ 84 ‚016 — 262 
Differenz der Anzahl der SM.12 „f. Wahl“ 84  < ,001 —,385 


Differenz der Anzahl der SM.13 „Kollok.“ 84 ‚027 —,242 


“In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitatsvariable signifikant korrelieren. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
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Tabelle 5.39: Beispiel 27 


Vor-KS Nach Ihrer Registrierung im Programm können Sie aus den Lei- 
stungen eine Auswahl treffen. 


SMU SDL After your registration in the program, you can select from the 
services to make a selection. 


Nach-KS Nach Ihrer Registrierung im Programm können Sie aus den Lei- 
stungen wählen. 


SMÜSDL After your registration in the program, you can select from the 
services. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.3.5.2 Vergleich der Qualität auf Regel- und MÜ-Systemebene 


Auf MÜ-Systemebene stieg nach der Anwendung der KS-Regel nur die Stilqua- 
lität bei zwei Systemen signifikant (Tabelle 5.40): bei dem RBMÜ-System Lucy 
(+ 15,4 %) und dem HMÜ-System Systran (+ 13,8 %). Alle weiteren Veränderun- 
gen in der Stil- und Inhaltsqualität waren bei allen Systemen niedrig. 

Wie die Aufteilung der Annotationsgruppen zeigte, waren 88 % der Überset- 
zungen des NMU-Systems Google Translate sowohl vor als auch nach der An- 
wendung der KS-Regel richtig (Annotationsgruppe RR). Entsprechend ist zu er- 
warten, dass das Qualitätsniveau sich nicht verändert. Ebenfalls waren die Ergeb- 
nisse bei dem HMÜ-System Bing sowie dem SMÜ-System SDL vor und nach der 
Anwendung der KS-Regel hinsichtlich der Annotationsgruppen gemischt, daher 
konnte keine signifikante Veränderung in der Qualität festgestellt werden (Ta- 
belle 5.40). 


5.4.3.5.3 Korrelation zwischen den Fehlertypen und der Qualität auf Regel- und 
MÜ-Systemebene 


Anhand der Spearman-Korrelationsanalyse erwies sich bei dem HMÜ-System 
Bing nur ein signifikanter starker negativer Zusammenhang zwischen dem le- 
xikalischen Fehlertyp LX.3 „Wort ausgelassen“ und der Inhaltsqualität (Tabel- 
le 5.41). 

Bei dem RBMÜ-System Lucy erwies sich ein signifikanter starker negativer Zu- 
sammenhang zwischen dem semantischen Fehlertyp SM.11 „Verwechslung des 
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Regel- und Systemebene - Vergleich der Mittelwerte vor-KS vs. nach-KS H 
Stilqualität - Inhaltsqualität 
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Abbildung 5.36: „FVG verm“ - Mittelwerte der Qualität vor vs. nach 
KS bei den einzelnen MÜ-Systemen 


Tabelle 5.40: „FVG verm“ - Signifikanz der Qualitätsveränderung bei 


den einzelnen MÜ-Systemen 


Differenz SQ Differenz CQ Differenz allg. Q 
(nach KS-vorKS) (nachKS-vorKS) (nach KS - vor KS) 
N p z N p z N p D 
Bing 14  ,431 —,787 14 ,362 -,912 14 4248 —1,155 
Google 22 ,392 —,857 22 ,946 -,067 22 4536 —,618 
Lucy 18 002 —3,030 18 ,143 —1,463 18 ‚011 — 2,534 
SDL 15 ,055 —1,920 15 ,850 —,189 15 ,450 —,755 
Systran 15 035 -2,108 15 ,064 -1,855 15 ‚036 — 2,102 


p: Signifikanz 


292 


z: Teststatistik 


nicht signifikant (p > 0,05) 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


Sinns“ und der Stilqualität; sowie ein signifikanter starker negativer Zusammen- 
hang zwischen dem semantischen Fehlertyp SM.12 „Falsche Wahl“ und der In- 
haltsqualität (Tabelle 5.41). 

Bei dem SMÜ-System SDL konnten mehrere signifikante Korrelationen nach- 
gewiesen werden: Bei der Stilqualität gab es einen signifikanten negativen star- 
ken Zusammenhang zwischen der Differenz in den Fehlertypen LX.4 „Lexik - 
Zusätzliches Wort eingefügt“ (vgl. Tabelle 5.39) und GR.10 „Grammatik - Fal- 
sche Wortstellung“ einzeln und der Differenz in der Stilqualität (Tabelle 5.41), 
während es bei der Inhaltsqualität einen signifikanten negativen starken Zusam- 
menhang zwischen der Differenz in den Fehlertypen LX.4 „Lexik - Zusätzliches 
Wort eingefügt“ und SM.12 „Semantik - Falsche Wahl“ einzeln und der Differenz 
in der Inhaltsqualität gab (Tabelle 5.41). 

Bei dem HMÜ-System Systran erwies sich nur ein signifikanter starker ne- 
gativer Zusammenhang zwischen dem grammatischen Fehlertyp GR.7 „Falsche 
Wortart / Wortklasse“ und der Inhaltsqualität (Tabelle 5.41). 

Die Korrelation zwischen der Qualitätsdifferenz und der Fehleranzahldifferenz 
lässt sich anhand Tabelle 5.42 beleuchten: Der semantische Fehlertyp SM.12 in 
‚suits in‘ wurde eliminiert, nachdem das bedeutungstragende Verb anstelle des 
Funktionsverbgefüges verwendet wurde. Daraufhin stiegen deutlich die Stilqua- 
lität um 1,38 Punkte und die Inhaltsqualität um 1,88 Punkte auf der Likert-Skala. 

Die Bewerter fanden den semantischen Fehler (in ‚suits in‘) irreführend. Einer 
der Kommentare lautete: „The reader will have no idea what ‘suits in the respon- 
sibility of the planner’ means. The text therefore fails in its informative function. 
Using ‘suits’ can be confusing. I would therefore write: ‘It is the responsibility of 


HE? 


the planner ... 


5.4.3.6 Vergleich der MÜ-Qualität mit vs. ohne Funktionsverbgefüge auf 
Annotationsgruppenebene 


Mit Ausnahme der Gruppe FR fiel die Differenz in der Stil- und Inhaltsqualität?? 
(nach KS — vor KS) bei allen anderen Annotationsgruppen gering aus. 

In der Gruppe FF (Ubersetzung vor und nach KS falsch) wurden die vor KS 
vorgekommenen Fehler - vor allem die semantischen Fehler - in vereinzelten 
Fällen nach der Anwendung der KS-Regel zum Teil eliminiert. Daher stieg die 
Qualität durchschnittlich nur leicht, demzufolge war die Differenz in der Qualität 
insignifikant (Tabelle 5.43). 

In der Gruppe FR stiegen die Stil- und Inhaltsqualität erwartungsgemäß hoch- 
signifikant (Tabelle 5.43): bei der Stilqualität (z (N = 25) = — 4,205 / p < ,001) bzw. 


® Definitionen der Qualität unter §4.5.5.1. 
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5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


Tabelle 5.42: Beispiel 28 
Vor-KS Es liegt in der Verantwortung des Planers, aufeinander abge- 
stimmte Produkte einzusetzen. 


RBMU Lucy It suits in the responsibility of the planner to use compatible 
products. 


Nach-KS Der Planer ist dafür verantwortlich, aufeinander abgestimmte 
Produkte einzusetzen. 


RBMÜLucy The planner is responsible for using compatible products. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Annotationsgruppenebene - Vergleich der Mittelwerte vor-KS vs. nach-KS g 


I Mitelw. 


Stilqualität - Inhaltsqualitat - Allgemeine Qualität’ 
KS Reget: Funktionsverbgefuge vermeiden 


T T T 
FF FR RF RR 
Annotationsgruppe 


Abbildung 5.37: „FVG verm“ - Mittelwerte der Qualität vor vs. nach 
KS auf Annotationsgruppenebene 
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Tabelle 5.43: „FVG verm“ - Signifikanz der Qualitätsveränderung auf 


Annotationsgruppenebene 


N p Z 
(Signifikanz) (Teststatistik) 
Annotationsgruppe FF 
Differenz SQ (nach KS — vor KS) 17 ‚420 —,807 
Differenz CQ (nach KS — vor KS) 17 ‚636 —,474 
Differenz allg. Q (nach KS — vor KS) 17 „421 —,805 
Annotationsgruppe FR 
Differenz SQ (nach KS — vor KS) 25 < ,001 — 4,205 
Differenz CQ (nach KS — vor KS) 25 < ,001 — 3,884 
Differenz allg. Q (nach KS — vor KS) 25 < ,001 — 4,043 
Annotationsgruppe RF 
Differenz SQ (nach KS — vor KS) 7 ‚416 ‚813 
Differenz CQ (nach KS — vor KS) 7 ‚107 —1,612 
Differenz allg. Q (nach KS — vor KS) 7 ‚058 —1,892 
Annotationsgruppe RR 
Differenz SQ (nach KS — vor KS) 35 ‚140 —1,477 
Differenz CQ (nach KS — vor KS) 35 ‚926 —,093 
Differenz allg. Q (nach KS — vor KS) 35 ‚190 —1,312 


296 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


bei der Inhaltsqualitat (z (N = 25) = — 3,884/ p < ,001). Durch die Aufhebung der 
semantischen Fehler (meist SM.13 Kollokationsfehler), die mit der Verwendung 
des Funktionsverbgefüges verbunden sind, stiegen die Verständlichkeit und Ge- 
nauigkeit sowie die Idiomatik und stilistische Adäquatheit°® der MU deutlich. In 
Tabelle 5.44 war der Anstieg relativ markant und betrug bei der Stilqualität 1,38 
Punkte bzw. bei der Inhaltsqualität 2,88 Punkte auf der Likert-Skala. 


Tabelle 5.44: Beispiel 29 
Vor-KS Der Bediener darf erst die Maschine in Betrieb nehmen, 
wenn er die Betriebsanleitung gelesen hat. 


HMÜ Systran The operator may only take the machine in enterprise after 
reading the operating instructions. 


Nach-KS Der Bediener darf erst die Maschine starten, wenn er die Be- 
triebsanleitung gelesen hat. 


HMÜ Systran The operator may only start the machine after reading the 
operating instructions. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


In einem weiteren Satz (Tabelle 5.45) konnte das MÜ-System (vor KS) das 
Kompositum ‚Fleckenbehandlung‘, aus dem das Funktionsverbgefüge zum Teil 
besteht, richtig übersetzen. Allerdings beinhaltete die Übersetzung einen Kollo- 
kationsfehler (in ‚treatment ...accomplished‘), der nach der Verwendung des be- 
deutungstragenden Verbs ‚behandeln‘ (nach KS) behoben werden konnte. 

In der Gruppe RF war die Anzahl der vorgekommenen Fälle relativ klein (8 %). 
In dieser Gruppe wurde das Funktionsverbgefüge (vor KS) richtig übersetzt, wäh- 
rend das bedeutungstragende Verb aus unterschiedlichen Gründen falsch über- 
setzt wurde. Folgender Satz ist ein Beispiel für solche Fälle, bei denen die Stilqua- 
lität um 0,25 Punkte bzw. die Inhaltsqualität um 0,63 Punkte auf der Likert-Skala 
zurückgingen (Tabelle 5.46). 

In der Gruppe RR (Übersetzung vor und nach KS richtig) war die Inhaltsqua- 
lität vor und nach der Anwendung der KS-Regel vergleichbar. Auf der anderen 
Seite stieg die Stilqualität in manchen Fällen, da die Übersetzung des bedeutungs- 
tragenden Verbs von den Bewertern als prägnanter wahrgenommen wurde. In 


?°Stilistische Adäquatheit im Sinne von Hutchins & Somers (1992: 163) „the extent to which the 
translation uses the language appropriate to its content and intention”. Mehr zu den Definitio- 
nen der Qualität unter §4.5.5.1. 


297 


5 Quantitative und qualitative Analyse der Ergebnisse 


Tabelle 5.45: Beispiel 30 


Vor-KS Die Fleckbehandlung muss so schnell wie möglich durchge- 
führt werden. 


HMÜ Systran The stain treatment should be accomplished as soon as possi- 


ble. 


Nach-KS Die Flecken müssen so schnell wie möglich behandelt wer- 
den. 


HMU Systran The stains should be treated as soon as possible. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Tabelle 5.46: Beispiel 31 


Vor-KS Die Abwicklung von Garantieleistungen erfolgt über die lokale 
Service-Hotline. 


SMÜSDL Handling of warranty services is effected by the local service hot- 
line. 


Nach-KS Die Garantieleistungen werden über die lokale Service-Hotline 
abgewickelt. 


SMÜSDL The warranty services are XXX by the local service hotline. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


Tabelle 5.47 blieb die Inhaltsqualität unverändert, während die Stilqualität um 
1,13 Punkte auf der Likert-Skala stieg. 


5.4.3.7 Vergleich der AEM-Scores mit vs. ohne Funktionsverbgefüge sowie 
die Korrelation zwischen den AEM-Scores und der Qualität 


Der Vergleich der AEM-Scores mit und ohne Funktionsverbgefüge zeigte sowohl 
mit TERbase als auch mit hLEPOR eine Verbesserung der AEM-Scores. 

Der Mittelwert der Differenz (nach KS — vor KS) im AEM-Score pro Satz lag für 
TERbase bei ‚126 (SD = ,244) und für die hLEPOR bei ‚048 (SD = ,151) mit einem 
95%-Konfidenzintervall (Bootstrapping mit 1000 Stichproben). Die Differenzen 
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Tabelle 5.47: Beispiel 32 
Vor-KS Die Höhenverstellung der Fronten können Sie mittels eines 
Schraubendrehers vornehmen. 


HMÜ Systran You can make the height adjustment of the fronts using a 
screwdriver. 


Nach-KS Die Hohe der Fronten konnen Sie mittels eines Schraubendre- 
hers verstellen. 


HMU Systran You can adjust the height of the fronts using a screwdriver. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


& Differenz TERbase (nach KS - vor KS) 
æa Differenz hLEPOR (nach KS - vor KS) 


Differenz = AEM-Score nach KS minus AEM-Score vor KS 


Abbildung 5.38: „FVG verm“ - Mittelwert der Differenz der AEM- 
Scores 
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(nach KS — vor KS) in TERbase und hLEPOR erwiesen sich als signifikant (z (N 
= 85) = — 4,353 / p < ,001) bzw. (z (N = 85) = — 2,975 / p = ,003). Dieses Ergebnis 
weist darauf hin, dass - nachdem das Funktionsverbgefiige vermieden wurde 
(nach KS) -weniger Edits erforderlich waren. 


5.4.3.7.1 Korrelation zwischen den Differenzen in den AEM-Scores und der Qua- 
lität 

Mithilfe des Spearman-Korrelationstests erwies sich ein signifikanter starker po- 

sitiver Zusammenhang zwischen den Differenzen der AEM-Scores von TERbase 

und hLEPOR und der Differenz der allgemeinen Qualität. Tabelle 5.48 präsentiert 

die Korrelationswerte: 


Tabelle 5.48: „FVG verm“ - Korrelation zwischen den Differenzen der 
AEM-Scores und den Qualitätsdifferenzen 


N Signifikanz Korrelations- Stärke 
(p) koeffizient der 
(p) Korrelation 
Korrelation zw. Diffe- 84 < ,001 ‚503 starker 
renz in der allg. Qualität Zusammen- 
und Differenz des hang 
TERbase-Scores (nach 
KS — vor KS) 
Korrelation zw. Diffe- 84 < ,001 ‚510 starker 
renz in der allg. Qualität Zusammen- 
und Differenz des hang 
hLEPOR-Scores (nach 
KS — vor KS) 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Dieses Ergebnis deutet darauf hin, dass - nachdem das bedeutungstragende 
Verb anstelle des Funktionsverbgefüges verwendet wurde - die Scores der beiden 
AEMs sich verbesserten und die Qualität stieg. 
5.4.3.8 Analyse der zweiten Regel - Validierung der Hypothesen 


Um die vorgestellten Ergebnisse auf die Forschungsfragen der Studie zurück- 
zuführen, listet dieser Abschnitt die zugrunde liegenden Hypothesen der For- 
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schungsfragen zusammen mit einer Zusammenfassung der Ergebnisse der zwei- 
ten analysierten Regel in tabellarischer Form auf. Für einen schnelleren Überblick 
steht (+) fiir eine Verbesserung bzw. einen Anstieg z. B. im Sinne eines Quali- 
tatsanstiegs, verbesserter AEM-Scores oder eines Anstiegs der Fehleranzahl; (—) 
steht für einen Rückgang; die grüne Farbe symbolisiert eine signifikante Veran- 
derung; neg steht für eine negative Korrelation und pos für eine positive Korrelati- 
on; <<>> steht für eine starke Korrelation und <> für eine mittlere Korrelation.?! 


Regel 2: Funktionsverbgefüge vermeiden 


Erster Analysefaktor: Vergleich der Fehleranzahl mit vs. ohne Funktionsverb- 


gefüge 
Fragestellung: Gibt es einen Unterschied in der Fehleranzahl nach der Anwen- 


dung der KS-Regel im Vergleich zu vor der Anwendung? 


HO - Es gibt keinen Unterschied in der Fehleranzahl vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in der Fehleranzahl vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


Auf Regelebene: 

HO wurde abgelehnt und somit H1 bestätigt. Anz.F. (—) 
Die Fehleranzahl sank signifikant, nachdem das Funktionsverb- 

gefüge vermieden wurde. 


Auf Regel- und MÜ-Systemebene: Lu (-) 
Bei Lucy, SDL und Systran sank die Fehleranzahl signifikant, SD (—) 
nachdem das Funktionsverbgefüge vermieden wurde. Sy (-) 


Bei Bing und Google sank ebenfalls die Fehleranzahl, jedoch war Bi (—) 
der Rückgang nicht signifikant. Go (-) 


3!Schwache Korrelationen werden in dieser Übersicht nicht angezeigt. 
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Zweiter Analysefaktor 


Abbildung 5.39: Aufteilung der Annotationsgruppen auf Regelebene 


20 7 


% 


FF FR RF RR 


| I Bing | B Google | I Lucy | I SDL | I Systran 


Abbildung 5.40: Aufteilung der Annotationsgruppen auf Regel- und 
MU-Systemebene 
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Dritter Analysefaktor: Vergleich der Fehlertypen mit vs. ohne Funktionsverb- 
gefüge 


Fragestellung: Beinhaltet die MÜ bestimmte Fehlertypen vor bzw. nach der An- 
wendung der KS-Regel? 


HO - Es gibt keinen Unterschied in der Häufigkeit der einzelnen Fehlertypen 
vor vs. nach der Anwendung der KS-Regel. 


H1- Es gibt einen Unterschied in der Häufigkeit der einzelnen Fehlertypen vor 
vs. nach der Anwendung der KS-Regel. 


Resultat 


Auf Regelebene: 

H1 wurde nur für einen Fehlertyp bestätigt. SM.13 (—) 
Die Fehleranzahl von SM.13 „Kollokationsfehler“ sank signifi- 

kant, nachdem das Funktionsverbgefüge vermieden wurde. 

Auf Regel- und MÜ-Systemebene: 

Bei Lucy und Systran sank die Fehleranzahl von SM.13 „Kolloka- SM.13 (—): 
tionsfehler“ signifikant, nachdem das Funktionsverbgefüge ver- Lu 
mieden wurde. Sy 


Alle weiteren Veränderungen waren nicht signifikant. 


Vierter Analysefaktor: Vergleich der MÜ-Qualität mit vs. ohne Funktionsverb- 
gefüge 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität der MÜ 
der KS-Stelle nach der Anwendung der KS-Regel im Vergleich zu vor der 
Anwendung? 


HO - Es gibt keinen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


H1- Es gibt einen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


Resultat 


Auf Regelebene: 

HO wurde abgelehnt und somit H1 bestätigt. SQ (+) 
Sowohl die Stil- als auch die Inhaltsqualitat stiegen nach KS si- CQ (+) 
gnifikant. 
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Auf Regel- und MU-Systemebene: SQ (+) 
Nur die Stilqualitat stieg bei Lucy und Systran signifikant. Lu Sy 


Die Stilqualitat stieg bei allen anderen Systemen, allerdings nicht 
signifikant. 

Die Inhaltsqualitat stieg bei allen Systemen - mit Ausnahme von 
Google Translate - nicht signifikant. Bei Google Translate sank 
sie leicht. 


Fünfter Analysefaktor: Korrelation zwischen den Fehlertypen und der Quali- 
tät 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der Fehler- 
anzahl eines bestimmten Fehlertyps (Fehleranzahl nach KS — vor KS) und 
der Differenz der Stil- bzw. Inhaltsqualität (Qualität nach KS — vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der Fehleranzahl 
eines bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsquali- 
tät. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der Fehleranzahl ei- 
nes bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsqualitat. 


Resultat 


Auf Regelebene: 

H1 wurde nur für drei Fehlertypen wie folgt bestätigt: neg LX.4 <> SQ 
Es bestand ein signifikanter mittlerer negativer Zusam- neg SM.11 <> SQ 
menhang zwischen der Differenz der Fehleranzahl des neg SM.12 <>CQ 
LX.4 „Zusätzliches Wort eingefügt“ und des SM.11 „Ver- 

wechslung des Sinns“ einzeln und der Differenz der Stil- 

qualität sowie ein signifikanter mittlerer negativer Zu- 

sammenhang zwischen der Differenz der Fehleranzahl 

des SM.12 „Falsche Wahl“ und der Differenz der Inhalts- 

qualität. 

Auf Regel- und MÜ-Systemebene: 

Bei Bing bestand ein signifikanter starker negativer Zu- Bi 

sammenhang zwischen der Differenz der Fehleranzahl neg LX.3 <<>> CQ 
des LX.3 „Wort ausgelassen“ und der Differenz der In- 

haltsqualität. 


304 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


Bei Lucy bestand ein signifikanter starker negativer Zu- Lu 

sammenhang zwischen der Differenz der Fehleranzahl neg SM.11 <<>> SQ 
des SM.11 „Verwechslung des Sinns“ und der Differenz neg SM.12 <<>> CQ 
der Stilqualität sowie ein signifikanter starker negati- 

ver Zusammenhang zwischen der Differenz der Fehler- 

anzahl des Fehlertyps 12 „SM - Falsche Wahl“ und der 

Differenz der Inhaltsqualitat. 


Bei SDL bestand ein signifikanter starker negativer Zu- SD 

sammenhang zwischen der Differenz der Fehleranzahl neg LX.4 <<>> SQ 

des LX.4 „Zusätzliches Wort eingefügt“ und des GR.10 neg GR.10 <<>> SQ 
„Falsche Wortstellung“ einzeln und der Differenz der Stil- neg LX.4 <<>> CQ 
qualität sowie ein signifikanter starker negativer Zusam- neg SM.12 <<>> CQ 
menhang zwischen der Differenz der Fehleranzahl des 

LX.4 „Zusätzliches Wort eingefügt“ und des SM.12 „Fal- 

sche Wahl“ einzeln und der Differenz der Inhaltsqualität. 


Bei Systran bestand ein signifikanter starker negativer Sy 
Zusammenhang zwischen der Differenz der Fehleran- neg GR.7 <<>> CQ 
zahl des GR.7 „Falsche Wortart / Wortklasse“ und der 

Differenz der Inhaltsqualität. 


Alle weiteren Korrelationen waren nicht signifikant. 


Sechster Analysefaktor: Vergleich der MÜ-Qualität mit vs. ohne Funktions- 
verbgefüge auf Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität bei den 
einzelnen Annotationsgruppen nach der Anwendung der KS-Regel im Ver- 
gleich zu vor der Anwendung? 


HO - Bei den Annotationsgruppen gibt es keinen Qualitätsunterschied vor vs. 
nach der Anwendung der KS-Regel. 


H1- Beiden Annotationsgruppen gibt es einen Qualitätsunterschied vor vs. nach 
der Anwendung der KS-Regel. 


Resultat 


H1 wurde nur für die Gruppe FR bestätigt: SQ (+) 
Bei der Annotationsgruppe FR stiegen die Stil- und Inhaltsqua- CQ (+) 
lität signifikant, nachdem das Funktionsverbgefüge vermieden 

wurde. 
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Bei den Annotationsgruppen FF und RR stiegen die Stil- und In- SQ (+) 


haltsqualitat leicht. CQ (+) 
Bei der Annotationsgruppe RF sanken die Stil- und Inhaltsquali- SQ (—) 
tat leicht. CQ (-) 


Siebter Analysefaktor: Vergleich der AEM-Scores mit vs. ohne Funktionsverb- 
gefiige 


Fragestellung: Gibt es einen Unterschied in den AEM-Scores von TERbase bzw. 
hLEPOR nach der Anwendung der KS-Regel im Vergleich zu vor der An- 
wendung? 


HO - Es gibt keinen Unterschied in den AEM-Scores vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in den AEM-Scores vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. TERbase (+) 
AEM-Scores sowohl von TERbase als auch von hLEPOR ver- hLEPOR (+) 
besserten sich signifikant, nachdem das Funktionsverbgefü- 

ge vermieden wurde. 


Achter Analysefaktor: Korrelation zwischen den Differenzen der AEM-Scores 
und der Qualität 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der AEM- 
Scores von TERbase bzw. hLEPOR (Mittelwert der AEM-Scores nach KS 
— vor KS) und der Differenz der allgemeinen Qualität (Qualität nach KS — 
vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 
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Resultat 


HO wurde abgelehnt und somit H1 bestätigt. pos TERbase <<>> 
Es bestand ein signifikanter starker positiver Zusammen- Q 

hang zwischen den Differenzen der Scores der beiden pos hLEPOR <<>> 
AEMs (TERbase und hLEPOR) und der Differenz der all- Q 

gemeinen Qualität. 


5.4.4 DRITTE REGEL: Konditionalsätze mit Wenn‘ einleiten 
5.4.4.1 Überblick 


Im Folgenden wird die KS-Regel „Konditionalsätze mit ‚Wenn‘ einleiten“ (auch 
bekannt als „Bedingungen als ‚Wenn‘-Sätze formulieren“) kurz beschrieben. >? 
Zudem wird zusammenfassend und anhand von Beispielen demonstriert, wie die 
Regel bei der Analyse angewendet wurde. Anschließend wird die Aufteilung der 
Testsätze im Datensatz dargestellt: 


Beschreibung der KS-Regel: Konditionalsätze mit Wenn‘ einleiten (tekom-Regel- 
Nr. S 201 „Bedingungen als ‚Wenn‘-Sätze formulieren“) 


Nach dieser Regel (tekom 2013: 66) sollen Bedingungssätze mit der Kon- 
junktion „Wenn“ oder „Falls“ eingeleitet werden. 


Begründung: Durch die Satzstruktur „Wenn-Nebensatz-Hauptsatz“ wird 
das „Bedingung-Folge-Verhältnis“ ersichtlich und somit die Textverständ- 
lichkeit erhöht (ebd.: 67). 


Umsetzungsmuster: 
Vor KS: Der Satz beginnt mit dem Verb. 
Nach KS: Der Satz ist mit ‚Wenn‘ am Satzanfang formuliert. 
Wenn der Nebensatz vor KS mit ‚so‘ formuliert ist, wurde ‚so‘ aus stilisti- 
schen Gründen nach KS entfernt (siehe Beispiel unten). 


KS-Stelle 
Vor KS: das Verb 
Nach KS: ‚Wenn‘ + das Verb 


Die für diese Regel relevanten Kontraste im Sprachenpaar DE-EN sind unter §4.5.2.3 erörtert. 
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Beispiele 


Ist die Seriennummer des Gerätes bekannt, kann im Feld ... 


Wenn die Seriennummer des Gerätes bekannt ist , kann im Feld... 


Werden die vordefinierten Werte verändert , so erfolgt die Umrechnung au- 


tomatisch. 


Wenn die vordefinierten Werte verändert werden , erfolgt die Umrechnung 


automatisch. 


Aufteilung der Testsätze: Da die Konditionalsätze im Deutschen mit unterschied- 
lichen Verben beginnen können und dies wiederum unterschiedliche Schwie- 
rigkeitsgrade für die MÜ-Systeme bedeutet, bestehen die Testsätze aus: 


7 Konditionalsätzen, die mit dem Verb ‚Werden‘ beginnen, 
8 Konditionalsätzen mit dem Verb ‚Sind‘ und 


9 Konditionalsätzen mit weiteren unterschiedlichen Verben. 


Im Folgenden werden die Ergebnisse der einzelnen Analysefaktoren präsen- 
tiert. 


5.4.4.2 Vergleich der Fehleranzahl bei Konditionalsätzen mit vs. ohne ‚Wenn‘ 


Die Fehleranzahl sank deutlich um 56,5 % von 92 Fehlern im Falle der Formulie- 
rung der Bedingungen mit Verben (M = ,77 / SD = 1,059 / N = 120) auf 40 Fehler bei 
der Formulierung mit ‚Wenn‘ (M = ‚33 / SD = ‚626 / N = 120), siehe Abbildung 5.41 
und Abbildung 5.42. Der Mittelwert der Differenz (nach KS — vor KS) der Fehler- 
anzahl pro Satz lag somit bei — ‚43 (SD = 1,019) mit einem 95%-Konfidenzintervall 
zwischen einem Minimum von — ‚62 (SD =,814) und einem Maximum von — ‚25 
(SD = 1,197) (Bootstrapping mit 1000 Stichproben). Die Differenz (nach KS — vor 
KS) der Fehleranzahl erwies sich als hochsignifikant (z (N = 120) = — 4,282 / p < 
,001). 

Im Datensatz ist ersichtlich, dass das Einleiten eines Konditionalsatzes mit ei- 
nem Verb den MU-Systemen Probleme bereitet. Knapp 80 % (19 von 24) der ana- 
lysierten Sätze wurden von mindestens einem MU-System falsch übersetzt und 
mithilfe der KS-Regel korrigiert. Daher war die Anwendung der KS-Regel im 
Hinblick auf die Fehleranzahl sinnvoll. Wie in der Uberblickstabelle erwahnt, be- 
stehen die Testsätze aus sieben Konditionalsätzen, die mit dem Verb ‚Werden‘ 
beginnen, acht Konditionalsätzen mit dem Verb ‚Sind‘ und neun Konditionalsät- 
zen mit weiteren unterschiedlichen Verben am Satzanfang. Die Ergebnisse bei 


308 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


150 r 
100} 922 
50 F 40 
i 
Anzahl der fehler 
innerh. KS vor KS 
- Anzahl der Fehler 
innerh. KS nach KS 


Abbildung 5.41: „Kondi. m. Wenn“ - 
Fehlersumme vor vs. nach KS 


KI 
‚96 
_ 767 
© 
SS 
ip 
E 
‚23 
‚45 


déi 


I Anzahl der Fehler innerh. KS vor KS 
I Anzahl der Fehler innerh. KS nach KS 


Abbildung 5.42: „Kondi. m. Wenn” - 
Mittelwert der Fehleranzahl pro Satz 
vor vs. nach KS 


den drei Gruppen waren auf Regelebene im Allgemeinen relativ ähnlich (Tabel- 
le 5.49). Nur bei der Kategorie Fehler vollständig korrigiert sind mehr korrigierte 
Fälle bei den Konditionalsätzen mit ‚Sind‘ im Vergleich zu den anderen Verben 


zu beobachten: 


Tabelle 5.49: Fehleranzahlveränderung bei den verschiedenen Kondi- 


tionalsätzen 


Veränderung in der Konditional- Konditional- Konditional- 
Fehleranzahl nach sätze mit sätze mit sätze mit 
Anwendung der Regel ‚Sind‘ untersch. Verben ‚Werden‘ 
Fehler vollständig korri- 16 MÜ 12 MÜ 10 MÜ 
giert 

Fehleranzahl gleich geblie- 20 MÜ 29 MÜ 22 MÜ 
ben 

Fehleranzahl stieg 4 MU 4 MU 3 MU 


N = 120 
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Die verschiedenen Annotationsgruppen werden unter §5.4.4.3 naher betrach- 
tet. 


5.4.4.2.1 Vergleich der Fehleranzahl auf Regel- und MU-Systemebene 


Die Fehleranzahl nach der Umsetzung der KS-Regel sank bei allen Systemen mit 
Ausnahme des NMU-Systems: Google Translate war in der Lage 22 der 24 ana- 
lysierten Sätze sowohl vor als auch nach der Umsetzung der KS-Regel korrekt 
zu übersetzen. Bei den zwei falschen Übersetzungen (Abbildung 5.43) handelt es 
sich um einen semantischen Fehler (‚Wenn‘ wurde als ‚When‘ anstatt ‚If‘ über- 
setzt) (Tabelle 5.50): 


Tabelle 5.50: Beispiel 33 


Vor-KS Ist diese Zeit erreicht, muss das Gerät für 2 Minuten abkühlen. 


GNMU When this time is reached, the unit must cool down for 2 minutes. 


Nach-KS Wenn diese Zeit erreicht ist, muss das Gerät fiir 2 Minuten abküh- 
len. 


GNMÜ When this time is reached, the unit must cool down for 2 minutes. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Die beiden falsch übersetzten Sätze waren sehr kontextabhängig, da das Kon- 
ditionalverb ohne Kontext sowohl als ‚If‘ als auch ‚When‘ übersetzt werden kann. 
Mehr zu den Fehlertypen ist unter §5.4.4.4 aufgeführt. 

Weitere nicht signifikante Differenzen in der Fehleranzahl waren bei dem RBMÜ- 
System Lucy (Mdiff = — ,125) und dem hybriden System Systran (Mdiff = — ,042) 
zu finden (Abbildung 5.43). 

Hingegen war die Differenz bei dem HMÜ-System Bing (Mdiff = — 1,208; z (N = 
24) = — 3,859 / p < ,001) und dem SMU-System SDL (Mdiff = — ‚833; z (N = 24) = — 
2,357 / p = ,018) signifikant (Abbildung 5.43). Bei diesen beiden Systemen war die 
Anwendung der KS-Regel sehr nützlich. Die korrigierten Fehlertypen werden im 
85.4.4.4 detaillierter dargestellt. 


5.4.4.3 Aufteilung der Annotationsgruppen 


Genau die Hälfte der übersetzten Sätze war sowohl bei der Formulierung des 
Konditionalsatzes mit Verben (vor KS) als auch mit ‚Wenn‘ (nach KS) fehlerfrei 
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Abbildung 5.43: „Kondi. m. Wenn“ - Summe der Fehleranzahl vor vs. 
nach KS bei den einzelnen MÜ-Systemen 


(Gruppe RR) (Abbildung 5.46). Knapp ein Viertel der Sätze beinhaltete vor der 
Anwendung der KS-Regel Fehler, die nach der Anwendung der Regel vollstän- 
dig korrigiert wurden (Gruppe FR) (Abbildung 5.47). Die drittgrößte Gruppe war 
die Gruppe FF. Diese Gruppe repräsentiert fast 21 % der analysierten Sätze (Abbil- 
dung 5.48). Hier beinhaltete die Übersetzung Fehler sowohl vor der Anwendung 
der KS-Regel als auch danach. 

Schließlich wurden nur 5 % der Sätze bei der Formulierung des Konditional- 
satzes mit Verb fehlerfrei übersetzt und erst nach der Formulierung mit ‚Wenn‘ 
falsch übersetzt (Abbildung 5.44). Im §5.4.4.4 werden die Fehlertypen näher be- 
trachtet. 


5.4.4.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MÜ- 
Systemebene 


Bei der dominanten Annotationsgruppe RR verzeichnete das NMÜ-System Goog- 
le Translate den höchsten Prozentsatz mit 92 %, gefolgt von dem RBMÜ-System 
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Abbildung 5.44: „Kondi. m. Wenn“ - Aufteilung der Annotationsgrup- 
pen 


Lucy mit 71% und schließlich von dem HMÜ-System Systran mit 58 % (Abbildung 
5.45). 

Erneut erzielten die HMÜ-Systeme unterschiedliche Ergebnisse. Anders als 
Systran waren 58 % der Übersetzungen bei dem HMU-System Bing vor der An- 
wendung der KS-Regel falsch und danach richtig (Annotationsgruppe FR) (Ab- 
bildung 5.45). Eine Formulierung der Bedingungen mit ‚Wenn‘ hat das System 
entsprechend unterstützt. Auch das SMU-System SDL erzielte ein ähnliches Er- 
gebnis mit 46 % aus der Annotationsgruppe FR (Abbildung 5.45). 


5.4.4.4 Vergleich der Fehlertypen bei Konditionalsatzen mit vs. ohne ,Wenn‘ 


Das Einleiten eines Konditionalsatzes mit einem Verb (vor KS) wurde in vielen 
Fallen von den MÜ-Systemen fehlerhaft übersetzt. Die Systeme übersetzen dieses 
Verb in den meisten Fallen falsch bzw. doppelt. Somit entstehen zwei lexikalische 
Fehlertypen: Fehlertyp LX.3 durch das Auslassen der Konjunktion ‚Wenn‘ und 
Fehlertyp LX.4 durch das Hinzufügen eines überflüssigen Verbs (Lis in Tabel- 
le 5.51): 

Die Fehleranzahl beider lexikalischen Fehlertypen LX.3 „Wort ausgelassen“ 
und LX.4 „Zusätzliches Wort eingefügt“ sank nach der Formulierung der Kon- 
ditionalsätze mit ‚Wenn‘: Bei dem Fehlertyp LX.3 sank die Fehleranzahl massiv 
von 45 auf 2 (— 95,6 % / Mv = ‚38 / SDv = ‚486 / Mn = ‚02 / SDn = ‚129 / N = 120) 
und bei dem Fehlertyp LX.4 wurden alle 7 vorgekommenen Fehler vor KS nach 
KS vollständig behoben (— 100 % / Mv = ‚06 / SDv = 235/Mn=-/SDn=-/N= 
120) (Abbildung 5.46). Entsprechend erwies sich der Unterschied bei den beiden 
Fehlertypen als hochsignifikant (p < ‚001 bzw. p = ‚023 / N = 120). 

Außerdem stellt die Übersetzung der Konditionalkonjunktion als Verb (‚Is in 
Tabelle 5.51) am Satzbeginn einen semantischen Fehler dar, nämlich Fehlertyp 


312 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 
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FF 
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FR 


4% 92%71%25% 58% 
RR 


lı Bing lu Google lı Lucy lısorlı Systran 
Die oben angezeigten Prozentzahlen sind für alle Systeme, d. h. systemübergreifend, (N = 120) 
berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.45: „Kondi. m. Wenn“ - Aufteilung der Annotationsgrup- 
pen bei den einzelnen MÜ-Systemen 
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45 


30 |- 


Summe 


Bh vor KS I nach KS 


"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken repräsentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. „OR_1.v“ für ,OR_1: orthografischer Fehler Nr. 1“ und 
„V: vor KS“; ,OR_1.n“ wäre entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario („n“). 
“Signifikante Differenz vor vs. nach KS 
OR.1: Orthografie — Zeichensetzung 
OR.2: Orthografie - Großschreibung 
LX.3: Lexik - Wort ausgelassen 
LX.4: Lexik - Zusätzliches Wort eingefügt 
LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 

LX.6: Lexik - Konsistenzfehler 

GR.7: Grammatik - Falsche Wortart / Wortklasse 

GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 
GR.9: Grammatik - Kongruenzfehler (Agreement) 

GR.10: Grammatik - Falsche Wortstellung 

SM.11: Semantik - Verwechslung des Sinns 

SM.12: Semantik - Falsche Wahl 

SM.13: Semantik - Kollokationsfehler 


Abbildung 5.46: „Kondi. m. Wenn“ - Summe der Fehleranzahl der ein- 
zelnen Fehlertypen vor vs. nach KS 
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Tabelle 5.51: Beispiel 34 


Vor-KS Ist die Seriennummer des Gerates bekannt, kann im Feld Serien- 
nummer diese Nummer eingegeben werden. 


SMU SDL XXX Is the serial number of the device is known, this number can 
be entered in the "Serial Number" field. 


Nach-KS Wenn die Seriennummer des Gerätes bekannt ist, kann im Feld 
Seriennummer diese Nummer eingegeben werden. 


SMU SDL Ifthe serial number of the device is known, this number can be 
entered in the "Serial Number" field. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


SM.11 „Verwechslung des Sinns“. Dieser Fehlertyp stieg systemübergreifend mi- 
nimal (11 vor der Umsetzung bzw. 15 nach der Umsetzung der KS-Regel) und 
entsprechend war die Veränderung insignifikant. Der Grund für den Anstieg der 
Fehleranzahl liegt darin, dass ‚Wenn‘ in einigen Fällen als ‚When‘ anstatt ‚If‘ über- 
setzt wurde. Im kommenden Abschnitt wird dieser Punkt systembezogen anhand 
eines Beispiels näher erläutert. 


5.4.4.5 Vergleich der Fehlertypen auf Regel- und MÜ-Systemebene 


Während auf Regelebene die Fehleranzahl des Fehlertyps LX.3 „Lexik - Wort 
ausgelassen“ und LX.4 „Lexik - Zusätzliches Wort eingefügt“ sich signifikant 
veränderte, zeigt eine nähere Analyse der Fehlertypen bei den verschiedenen 
MÜ-Systemen Folgendes (Abbildung 5.47): Die Fehlertypen LX.3 „Lexik - Wort 
ausgelassen“ und GR.10 „Grammatik - Falsche Wortstellung“ wiesen einzeln bei 
dem HMÜ-System Bing signifikante Veränderungen auf. Bei dem SMÜ-System 
SDL veränderte sich nur Fehlertyp LX.3 „Lexik - Wort ausgelassen“ signifikant. 
Fehlertyp LX.4 „Lexik - Zusätzliches Wort eingefügt“ zeigte bei keinem bestimm- 
ten System eine signifikante Veränderung. 

Fehlertyp LX.3 sank bei Bing von 23 auf 2 Fehler (— 91,3 %) und bei SDL von 15 
auf 5 Fehler (— 66,7 %) (Abbildung 5.47). Fehlertyp GR.10 sank bei Bing von 10 auf 
3 Fehler (— 70 %) (Abbildung 5.47). Entsprechend erwies sich der Unterschied in 
der Fehleranzahl der beiden Fehlertypen LX.3 und GR.10 wie folgt als signifikant 
(Tabelle 5.52). 

Diese signifikante Veränderung ist in Tabelle 5.53 zu beobachten. 
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"Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 
folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 

**Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 
Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen vorkamen: In dieser 
Grafik kamen die Fehlertypen 1, 2, 5, 6, 7 und 12 bei gar keinem MÜ-System vor. 


Abbildung 5.47: „Kondi. m. Wenn“ - Summe der Fehleranzahl der Feh- 
lertypen vor vs. nach KS bei den einzelnen MÜ-Systemen 


316 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


Tabelle 5.52: „Kondi. m. Wenn“ - Fehlertypen mit signifikanter Verän- 
derung nach KS 


N Mittelwert Standard- Signifikanz 
abweichung (McNemar-Test) 


LX.3 „Wort ausgelassen“ 

Bing 24x2 vorKS = ,96 vor KS = ‚204 p < ‚001 
nach KS = ,08 nach KS = ‚282 

SDL 24x2 vor KS = oi vor KS = ,495 p < ‚001 
nach KS = - nach KS = - 


GR.10 „Falsche Wortstellung“ 
Bing 24x2 vor KS =,42 vor KS = ,504 p = ‚016 
nach KS = ‚13 nach KS = ‚338 


Tabelle 5.53: Beispiel 35 


Vor-KS Steht die Maschine nicht im Einsatz, den Hauptschalter auf "0" 
setzen. 


HMÜBing XXX Is the machine not in use, set the main switch to "0". 


Nach-KS Wenn die Maschine nicht im Einsatz steht, den Hauptschalter 
auf "0" setzen. 


HMU Bing Ifthe machine is not in use, set the main switch to "0". 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


Hierbei wurden der lexikalische Fehlertyp LX.3 (in dem Auslassen von ‚If‘) 
und der grammatische Fehlertyp GR.10 (in der falschen Wortstellung des Verbs 
‚Is‘) nach der Anwendung der KS-Regel behoben. 

Der insignifikante Anstieg in der Fehleranzahl bei Fehlertyp SM.11 „Semantik 
- Verwechslung des Sinns“ bei dem HMU-System Bing und dem NMU-System 
Google kann durch Tabelle 5.54 verdeutlicht werden. 

Solche semantischen Fehler der Verwechslung des Sinns wurden auch in den 
Ergebnissen der Humanevaluation beobachtet. Hierbei kommentierten die Teil- 
nehmer, dass sie Kontextinformationen benötigen, um den korrekten Sinn erken- 
nen zu können. 
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Tabelle 5.54: Beispiel 36 


Vor-KS Schließt der Kontaktschalter, so wird der Raumdruck-Sollwert ak- 
tiv. 


GNMU If the contact switch closes, the room pressure setpoint becomes 
active. 


Nach-KS Wenn der Kontaktschalter schließt, wird der Raumdruck-Sollwert 
aktiv. 


GNMÜ When the contact switch closes, the room pressure setpoint beco- 
mes active. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.4.6 Vergleich der MÜ-Qualität bei Konditionalsätzen mit vs. ohne ‚Wenn‘ 
sowie die Korrelation zwischen den Fehlertypen und der Qualität 


Sowohl die Stil- als auch die Inhaltsqualität”” stiegen nach der Formulierung der 
Konditionalsätze mit ‚Wenn‘ (nach KS). Auf den ersten Blick erkennt man in Ab- 
bildung 5.49, dass der Einfluss auf die Inhaltsqualität im Vergleich zur Stilqualität 
größer war. Angesichts des deutlichen Rückgangs der lexikalischen Fehlertypen 
LX.3 „Wort ausgelassen“ und LX.4 „Zusätzliches Wort eingefügt“ nach der Ver- 
wendung der Konjunktion ‚Wenn‘ (nach KS) (siehe §5.4.4.4), ist es nachvollzieh- 
bar, dass die Inhaltsqualität durch die erhöhte Verständlichkeit und Genauigkeit 
primär beeinflusst wird: 

Die Stilqualität stieg um 3,8 % (Mv = 4,22 / SDv = ‚533 / Mn = 4,38 / SDn = 
‚483 / N = 84). Die Inhaltsqualität stieg um 9,3 % (Mv = 4,21 / SDv = ‚748 / Mn = 
4,60 / SDn = ‚599 / N = 84) (Abbildung 5.48). Der Mittelwert der Differenz (nach 
KS — vor KS) der vergebenen Qualitätspunkte pro Satz lag für die Stilqualität 
bei ‚168 (SD = ,562) mit einem 95%-Konfidenzintervall zwischen einem Minimum 
von ‚046 und einem Maximum von ‚290 und für die Inhaltsqualität bei ‚384 (SD = 
‚300) mit einem 95%-Konfidenzintervall zwischen einem Minimum von 210 und 
einem Maximum von ‚558 (Bootstrapping mit 1000 Stichproben) (Abbildung 5.49). 
Die Differenzen (nach KS — vor KS) in der Stil- und Inhaltsqualität erwiesen sich 
als signifikant (z (N = 84) = — 2,585 / p = ,010) bzw. (z (N = 84) = — 3,983 / p < 
,001). 


®Definitionen der Qualität unter §4.5.5.1. 
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I Differenz SQ (nach KS - vor KS) 
I Differenz CO (nach KS - vor KS) 
T Differenz Q (nach KS - vor KS) 


95% Cl 


3 
‚276 
‚168 


95% Cl 


se Mittelwert SO vor KS 
Mittelwert SQ nach KS 
së Mittelwert CO vor KS 
Mittelwert CQ nach KS 
«>» Mittelwert Q vor KS 
WW Nittelwert Q nach KS 


Abbildung 5.48: „Kondi. m. Wenn“ - Abbildung 5.49: „Kondi. m. Wenn” - 
Mittelwerte der Qualität vor und nach Mittelwert der Qualitätsdifferenzen 
KS 


Durch die Humanevaluation wird ersichtlich, dass der Anstieg der allgemei- 
nen Qualität durch den Anstieg der Inhaltsqualität begründet ist. Abbildung 5.50 
„Vergleich der Qualitätskriterien“ zeigt, dass sich beide Inhaltsqualitätskriterien 
(CQ1 und CQ2) nach der Verwendung der Konjunktion ‚Wenn‘ anstelle von Ver- 
ben am Satzbeginn deutlich verbesserten. 

Wie Tabelle 5.55 zeigt, ist die MÜ vor KS unverständlich (CQ2) und gibt den 
Inhalt des Ausgangstexts nicht wieder (CQ1). 


Tabelle 5.55: Beispiel 37 


Vor-KS Ist nur ein Gerät angeschlossen, so ist die Funktion PP zu 
wahlen. 


HMU Systran Only if one device is attached, the "PP" function must be sel- 
ected. 


Nach-KS Wenn nur ein Gerat angeschlossen ist, ist die Funktion PP zu 
wahlen. 


HMU Systran If only one device is attached, the "PP" function must be sel- 
ected. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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SQ2: Ü ist nicht ideal für die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: Ü klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. 
CQ2: Ü ist nicht leicht zu verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.50: „Kondi. m. Wenn“ - Vergleich der Qualitatskriterien 


Durch den Wortstellungsfehler in ‚If‘ (vor KS) wird falscher Inhalt vermittelt. 
Dieser Einfluss ist in den Kommentaren der Bewerter wiederzufinden „only ‚if‘ 


is wrong and actually provides false information, I suggest ‚if only“ (Kommentar 
eines Bewerters). 


5.4.4.6.1 Korrelation zwischen den Fehlertypen und der Qualität 


Auf Basis der Fehlerannotation in Kombination mit der Humanevaluation gibt 
uns die Spearman-Korrelationsanalyse Aufschluss, wie die Veränderung bei der 
Fehleranzahl bei jedem Fehlertyp (Anz. nach KS - Anz. vor KS) mit den Qualitäts- 
unterschieden (Q. nach KS - Q. vor KS) zusammenhängt. Mithilfe des Spearman- 
Tests erwies sich (Tabelle 5.56) ein signifikanter starker negativer Zusammen- 
hang zwischen der Differenz in Fehlertyp LX.3 „Wort ausgelassen“ und der Dif- 
ferenz in der Stilqualität. Außerdem erwies sich ein signifikanter mittlerer nega- 
tiver Zusammenhang zwischen der Differenz in Fehlertyp GR.10 „Falsche Wort- 
stellung“ und der Differenz in der Stilqualität; sowie ein signifikanter schwacher 
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negativer Zusammenhang zwischen der Differenz in Fehlertyp LX.4 „Zusätzli- 
ches Wort eingefiigt“ und der Differenz in der Stilqualitat. 

Bezüglich der Inhaltsqualität erwies sich (Tabelle 5.56) ein signifikanter star- 
ker negativer Zusammenhang zwischen der Differenz in Fehlertyp LX.3 und der 
Differenz in der Inhaltsqualitat; sowie ein signifikanter schwacher negativer Zu- 
sammenhang zwischen der Differenz in den Fehlertypen LX.4 und GR.10 einzeln 
und der Differenz in der Inhaltsqualität. Weitere Korrelationen zwischen anderen 
einzelnen Fehlertypen und der Qualitat konnten nicht nachgewiesen werden. 


Tabelle 5.56: „Kondi. m. Wenn“ - Korrelation zwischen den Fehlerty- 
pen und der Qualitat 


N p p 
Differenz SQ (nach KS — vor KS) 
Differenz der Anzahl der LX.3 84 <,001 — ,630 
Differenz der Anzahl der LX.4 84 ‚010 — ‚281 
Differenz der Anzahl der GR.10 84 <,001 — ,375 
Differenz CQ (nach KS — vor KS) 
Differenz der Anzahl der LX.3 84 <,001 — ‚804 
Differenz der Anzahl der LX.4 84 ‚046 — ‚218 
Differenz der Anzahl der GR.10 84 ‚016 — ‚263 
Differenz allg. Q (nach KS — vor KS) 
Differenz der Anzahl der LX.3 84 <,001 — ,774 
Differenz der Anzahl der LX.4 84 ‚014 — ‚268 
Differenz der Anzahl der GR.10 84 ‚004 — ‚308 


*In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitätsvariable signifikant korrelieren. 


p: Signifikanz p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Diese signifikanten negativen Korrelationen deuten darauf hin, dass sobald 
die Fehleranzahl der genannten Fehlertypen sank, die Qualität stieg. In Tabel- 
le 5.55 wurde der grammatische Fehlertyp GR.10 „Falsche Wortstellung“ in ‚If‘ 
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korrigiert, daraufhin stieg die Stil- und Inhaltsqualität jeweils um 0,75 Punkte 
auf der Likert-Skala. 

In einem weiteren Beispiel wurde nur der lexikalische Fehler (LX.3) für die 
fehlende Übersetzung des Verbs ‚Ist‘ korrigiert, nachdem der Konditionalsatz mit 
‚Wenn‘ formuliert wurde (Tabelle 5.57). 


Tabelle 5.57: Beispiel 38 


Vor-KS Ist die Seriennummer des Gerätes bekannt, kann im Feld Serien- 
nummer diese Nummer eingegeben werden. 


HMÜ Bing XXX The serial number of the device is known, this number can 
be entered in the "Serial Number" field. 


Nach-KS Wenn die Seriennummer des Gerätes bekannt ist, kann im Feld 
Seriennummer diese Nummer eingegeben werden. 


HMÜ Bing Ifthe serial number of the device is known, this number can be 
entered in the "Serial Number" field. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


Daraufhin stieg die Stilqualität um 0,38 Punkte und die Inhaltsqualität um 1,63 
Punkte auf der Likert-Skala. 


5.4.4.6.2 Vergleich der Qualität auf Regel- und MÜ-Systemebene 


Wie Abbildung 5.51 zeigt, stiegen die Stil- und Inhaltsqualität nach der Anwen- 
dung der KS-Regel nur bei dem HMÜ-System Bing (+ 15,6 % (SQ) bzw. + 33,5 % 
(CQ)). Zudem stieg nur die Inhaltsqualität bei dem SMU-System SDL (+ 16,5 %). 
Diese Zunahmen erwiesen sich als signifikant. Bei den anderen Systemen war 
die Veränderung, wenn überhaupt, minimal. 

Wie die Aufteilung der Annotationsgruppen zeigte, waren 92 % der Überset- 
zungen vom NMÜ-System Google Translate sowohl vor als auch nach der An- 
wendung der KS-Regel richtig (Annotationsgruppe RR). Entsprechend ist zu er- 
warten, dass das Qualitätsniveau sich nicht verändert. Ebenfalls waren bei dem 
RBMU-System Lucy 71 % der MU in der Annotationsgruppe RR und 21 % in der 
Annotationsgruppe FF enthalten. Bei zwei fehlerfreien MÜ (Gruppe RR) bzw. 
zwei fehlerhaften MÜ (Gruppe FF) waren die Qualitätswerte vor und nach der 
Regelanwendung vergleichbar, daher ist die minimale Qualitätsveränderung bei 
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Regel- und Systemebene - Vergleich der Mittelwerte vor-KS vs. nach-KS 
Stilqualität - Inhaltsqualität 


KS Reget: Konditionalsätze mit Wenn formulieren 


95% CI 
8 S 8 VW 
I L A 
D 


T T T T T 
Beng Google Lucy so Systran 


MU-System 


Abbildung 5.51: „Kondi. m. Wenn“ - Mittelwerte der Qualität vor vs. 
nach KS bei den einzelnen MÜ-Systemen 


Lucy begründet. Bei dem HMÜ-System Systran waren die Fehleranzahl vor und 
nach der Anwendung der KS-Regel vergleichbar hoch und die Fehlertypen sehr 
gemischt, daher konnte keine signifikante Veränderung in der Qualität verzeich- 
net werden. 


5.4.4.6.3 Korrelation zwischen den Fehlertypen und der Qualität auf Regel- und 
MÜ-Systemebene 


Anhand der Spearman-Korrelationsanalyse erwiesen sich bei zwei MÜ-Systemen 
signifikante starke negative Korrelationen (Tabelle 5.59): Bei dem HMÜ-System 
Bing konnte eine signifikante starke negative Korrelation zwischen der Differenz 
in Fehlertyp LX.3 „Wort ausgelassen“ und der Differenz der Stil- und Inhaltsqua- 
lität nachgewiesen werden, wie in Tabelle 5.57. Bei dem SMÜ-System SDL erwies 
sich eine signifikante starke negative Korrelation zwischen den Fehlertypen LX.3 
„Wort ausgelassen“ und GR.10 „Falsche Wortstellung“ einzeln und der Stilquali- 
tät; sowie eine signifikante starke negative Korrelation zwischen LX.3 und der 
Inhaltsqualität. 

In Tabelle 5.60 wurden die Fehlertypen LX.3 „Wort ausgelassen“ (in ‚if‘) und 
GR.10 „Falsche Wortstellung“ (in ‚is‘) eliminiert. 

Daraufhin stieg die Stilqualität um 1,25 Punkte und die Inhaltsqualität um 0,75 
Punkte auf der Likert-Skala. 
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Tabelle 5.58: „Kondi. m. Wenn“ - Signifikanz der Qualitätsveränderung 
bei den einzelnen MÜ-Systemen 


Differenz SQ Differenz CQ Differenz allg. Q 


(nach KS — vor KS) (nach KS — vor KS) (nach KS - vor KS) 

N p z N p z N p Z 

Google 21 ,982 — ,022 21 ‚333 — ,929 21 Ale — ,649 
Lucy 13  ,328 — ,978 13 ‚168 — 1,378 13 027 — 2,209 
SDL 19 ,080 —1,754 19 O11 —2,528 19 008 — 2,637 
Systran 13 ,348 — ,938 13 ‚197 — ,257 13 206 — ,904 
p: Signifikanz z: Teststatistik nicht signifikant (p > 0,05) 


5.4.4.7 Vergleich der MÜ-Qualität bei Konditionalsätzen mit vs. ohne ‚Wenn‘ 
auf Annotationsgruppenebene 


Mit Ausnahme der Gruppe FR fiel die Differenz in der Stil- und Inhaltsqualitat** 
bei allen anderen Annotationsgruppen sehr gering aus (Abbildung 5.52). 

In der Gruppe FF (Übersetzung vor und nach KS falsch) blieb die Inhaltsqualität 
fast unverändert und die Stilqualität sank minimal (Abbildung 5.52). Es gab in 
dieser Gruppe keinen bestimmten Fehler, der vor oder nach der Anwendung der 
KS auftrat bzw. eliminiert wurde. 

In der Gruppe FR stiegen erwartungsgemäß die Stil- und Inhaltsqualität signi- 
fikant (Abbildung 5.52): Ein Anstieg von 18,6 % bei der Stilqualität (z (N = 23) 
= — 4,143 / p < ,001) bzw. ein doppelt so hoher Anstieg von 36,3 % bei der In- 
haltsqualitat (z (N = 23) = — 4,209 / p < ,001) (Tabelle 5.61). Die Eliminierung 
des Fehlertyps LX.3 (das Auslassen von ‚If‘) führte eindeutig zu einer hohen Ver- 
ständlichkeit und Genauigkeit der MÜ (hohe Inhaltsqualität) und steigerte die 
stilistische Adäquatheit”” für eine Formulierung als Bedingung. Dieses Ergebnis 
wird in Tabelle 5.62 verdeutlicht, in dem die Stilqualität um 0,88 und die Inhalts- 
qualität um 1,63 Punkte auf der Likert-Skala stiegen. 


Definitionen der Qualität unter §4.5.5.1. 

Stilistische Adäquatheit im Sinne von Hutchins & Somers (1992: 163) ist „the extent to which 
the translation uses the language appropriate to its content and intention”. Mehr zu den Defi- 
nitionen der Qualität unter §4.5.5.1. 
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Tabelle 5.59: „Kondi. m. Wenn“ - Korrelationen zwischen den Fehler- 
typen und der Qualität bei den einzelnen MU-Systemen 


Bing SDL 


N p p N p P 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl LX.3 „W. fehlt“ 18 (029 -,513 19 005 —,611 


Diff. der Anzahl GR.10 „Wort- 19 ‚008 —,588 
st.“ 

Differenz CQ (nach KS — vor KS) 

Diff. der Anzahl LX.3 „W. fehlt“ 18 (019 —,548 19 <,001 —,757 
Diff. der Anzahl GR.10 ,Wort- 19 ‚306 — ‚248 
st.“ 

Differenz Q (nach KS — vor KS) 

Diff. der Anzahl LX.3 „W. fehlt“ 18 ,019 -,547 19 <,001 —~,766 
Diff. der Anzahl GR.10 ,Wort- 19 = 058 — ‚443 
st.“ 


“In der Tabelle werden nur die Fehlertypen dargestellt, die bei mind. einer Qualitatsvariable eine 
signifikante Korrelation aufweisen. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Die Gruppe RF war, wie die Aufteilung der Annotationsgruppen (§5.4.4.3) zeig- 
te, sehr selten vertreten (nur 5 % der Fälle) (Abbildung 5.44). Übersetzungen die- 
ser Gruppe kamen in grenzwertigen Fällen vor, in denen z. B. die Konditionalkon- 
junktion ‚Wenn‘ mangels Kontextinformationen als ‚When‘ anstatt ‚If‘ übersetzt 
wurde (siehe Tabelle 5.54). In der Gruppe RR (Übersetzung vor und nach KS rich- 
tig) waren die Übersetzungen vor und nach der Anwendung der KS-Regel iden- 
tisch, so dass es keinen Raum für eine Veränderung im Qualitätsniveau gibt. 
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Tabelle 5.60: Beispiel 39 


Vor-KS Steht ein normierter Faktor zur Verfügung, kann dieser Faktor 
direkt in der Eingabemaske eingegeben werden. 


SMÜSDL XXX Is a standardized factor available, this factor can be entered 
directly in the input mask. 


Nach-KS Wenn ein normierter Faktor zur Verfügung steht, kann dieser 
Faktor direkt in der Eingabemaske eingegeben werden. 


SMU SDL Ifa standardized factor is available, this factor can be entered di- 
rectly in the input mask. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


Annotationsgruppenebene - Vergleich der Mittelwerte vor-KS vs. nach-KS es 


I Mitelw. 
Stilqualität - Inhaltsqualität - Allgemeine Qualität’ = 


KS-Regel: Konditionalsatze mit Wenn formukeren 


vor KS X Mittelwert CO nach KS 
KS X mittetwert Q vor KS 
S F Miteiwert Q nach KS 


95% CI 
B3B 
L L 
ke al 
R D 
ur zu 
kom. em 
= 
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an 
= 
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Annotationsgruppe 


Abbildung 5.52: „Kondi. m. Wenn“ - Mittelwerte der Qualität vor vs. 
nach KS auf Annotationsgruppenebene 
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Tabelle 5.61: „Kondi. m. Wenn“ - Signifikanz der Qualitätsveränderung 


auf Annotationsgruppenebene 


Annotationsgruppe FF 


N p Z 
(Signifikanz) (Teststatistik) 


Differenz SQ (nach KS — vor KS) 14 ‚090 — 1,694 
Differenz CQ (nach KS — vor KS) 14 218 — 1,084 
Differenz allg. Q (nach KS — vor KS) 14 ‚157 — 1,414 
Annotationsgruppe FR 

Differenz SQ (nach KS — vor KS) 23 < ,001 — 4,143 
Differenz CQ (nach KS — vor KS) 23 < ,001 — 4,209 
Differenz allg. Q (nach KS — vor KS) 23 < ,001 — 4,201 
Annotationsgruppe RF 

Differenz SQ (nach KS — vor KS) 3 ‚285 — 1,069 
Differenz CQ (nach KS — vor KS) 3 ‚285 — 1,069 
Differenz allg. Q (nach KS — vor KS) 3 ‚285 — 1,069 
Annotationsgruppe RR 

Differenz SQ (nach KS — vor KS) 44 ‚620 — ‚222 
Differenz CQ (nach KS — vor KS) 44 ‚795 — ‚260 
Differenz allg. Q (nach KS — vor KS) 44 ‚229 — 1,204 
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Tabelle 5.62: Beispiel 40 
Vor-KS Ist ein mehrstufiges Modul parametriert, so sind die externen 
Kontakte zu verriegeln. 


HMU Bing XXX A multi-level module is programmed, the external contacts 
must be locked. 


Nach-KS Wenn ein mehrstufiges Modul parametriert ist, sind die exter- 
nen Kontakte zu verriegeln. 


HMU Bing If a multi-level module is programmed, the external contacts 
must be locked. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX fiir ein fehlendes Wort oder Komma. 


5.4.4.8 Vergleich der AEM-Scores bei Konditionalsätzen mit vs. ohne ‚Wenn‘ 
sowie die Korrelation zwischen den AEM-Scores und der Qualitat 


Der Vergleich der AEM-Scores vor und nach der Formulierung der Konditional- 
sätze mit ‚Wenn‘ zeigte sowohl mit TERbase als auch mit hLEPOR nur eine ge- 
ringe nicht signifikante Verbesserung der AEM-Scores (Abbildung 5.53). 

Der Mittelwert der Differenz (nach KS — vor KS) im AEM-Score pro Satz lag 
fiir TERbase bei ,018 (SD = ,188) und fiir die hLEPOR bei ,019 (SD = ,124) mit 
einem 95%-Konfidenzintervall (Bootstrapping mit 1000 Stichproben) (Abbildung 
5.53). Durch diese minimalen Unterschiede waren die Differenzen (nach KS — 
vor KS) in TERbase und hLEPOR nicht signifikant (z (N = 84) = — 1,223 / p = ,221) 
bzw. (z (N = 84) = — 1,774 / p = ,076). Wie der Vergleich der Fehlertypen (siehe 
§5.4.4.4) zeigt, war der dominante Fehlertyp (LX.3) das Fehlen der Konjunktion 
‚If‘ vor der Anwendung der Regel. In Tabelle 5.63 wird der Fehler LX.3 (vor KS) 
durch das Einfügen von ‚If‘ (nach KS) korrigiert. 

Außer diesem Fehler (Fehlen der Konjunktion ‚If‘) waren viele MÜ-Sätze - 
vergleichbar mit dem Tabelle 5.34 - in beiden Szenarien identisch. Das kann der 
Grund für die kleine (insignifikante) Differenz in den AEM-Scores (nach KS — 
vor KS) gewesen sein. 


5.4.4.8.1 Korrelation zwischen den Differenzen in den AEM-Scores und der Qua- 
lität 

Mithilfe des Spearman-Korrelationstests erwies sich ein signifikanter starker po- 

sitiver Zusammenhang zwischen den Differenzen der AEM-Scores von TERbase 
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95% Cl 


Differenz TERbase (nach KS - vor KS) 
am Differenz hLEPOR (nach KS - vor KS) 


Differenz = AEM-Score nach KS minus AEM-Score vor KS 


Abbildung 5.53: „Kondi. m. Wenn“ - Mittelwert der Differenz der AEM- 
Scores 


Tabelle 5.63: Beispiel 41 


Vor-KS Liegt die Regelabweichung innerhalb der x-Zone, so bleibt das 
erste Modul stehen. 


HMÜ Bing XXX The control deviation is within the x-zone, the first module 
remains stationary. 


Nach-KS Wenn die Regelabweichung innerhalb der x-Zone liegt, bleibt 
das erste Modul stehen. 


HMÜ Bing If the control deviation is within the x-zone, the first module 
remains stationary. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 
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und hLEPOR und der Differenz in der allgemeinen Qualitat. Tabelle 5.64 demon- 
striert die Korrelationswerte. 


Tabelle 5.64: „Kondi. m. Wenn“ - Korrelation zwischen den Differen- 
zen der AEM-Scores und den Qualitätsdifferenzen 


N Signifikanz Korrelations- Stärke 
(p) koeffizient der 
(p) Korrelation 
Korrelation zw. Diffe- 84 < ,001 551 starker 
renz in der allg. Qualitat Zusammen- 
und Differenz des hang 
TERbase-Scores (nach 
KS — vor KS) 
Korrelation zw. Diffe- 84 < ,001 ‚582 starker 
renz in der allg. Qualität Zusammen- 
und Differenz des hang 
hLEPOR-Scores (nach 
KS — vor KS) 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Dieses Ergebnis weist darauf hin, dass - nach der Formulierung der Konditio- 
nalsätze mit ‚Wenn‘ - der Anstieg der Qualität mit einer Verbesserung der Scores 
der beiden AEMs einherging. 


5.4.4.9 Analyse der dritten Regel - Validierung der Hypothesen 


Um die vorgestellten Ergebnisse auf die Forschungsfragen der Studie zurück- 
zuführen, listet dieser Abschnitt die zugrunde liegenden Hypothesen der For- 
schungsfragen zusammen mit einer Zusammenfassung der Ergebnisse der drit- 
ten analysierten Regel in tabellarischer Form auf. Für einen schnelleren Überblick 
steht (+) für eine Verbesserung bzw. einen Anstieg z. B. im Sinne eines Quali- 
tätsanstiegs, verbesserter AEM-Scores oder eines Anstiegs der Fehleranzahl; (—) 


steht für einen Rückgang; die grüne Farbe symbolisiert eine signifikante Verän- 


derung; neg steht für eine negative Korrelation und pos für eine positive Korrelati- 
on; <<>> steht für eine starke Korrelation und <> für eine mittlere Korrelation.*° 


3°Schwache Korrelationen werden in dieser Übersicht nicht angezeigt. 
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Regel 3: Konditionalsätze mit Wenn‘ einleiten 


Erster Analysefaktor: Vergleich der Fehleranzahl bei Konditionalsätzen mit vs. 
ohne ‚Wenn‘ 


Fragestellung: Gibt es einen Unterschied in der Fehleranzahl nach der Anwen- 
dung der KS-Regel im Vergleich zu vor der Anwendung? 


HO - Es gibt keinen Unterschied in der Fehleranzahl vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in der Fehleranzahl vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


Auf Regelebene: 

HO wurde abgelehnt und somit H1 bestätigt. Anz.F. (—) 
Die Fehleranzahl sank signifikant, nachdem die Konditionalsätze 

mit ‚Wenn‘ formuliert wurden. 


Auf Regel- und MÜ-Systemebene: 
Bei Bing und SDL sank die Fehleranzahl signifikant, nachdem Bi (—) 
die Konditionalsätze mit ‚Wenn‘ formuliert wurden. SD (-) 


Bei Lucy und Systran sank ebenfalls die Fehleranzahl, jedoch war Lu (—) 
der Rückgang nicht signifikant. Sy (-) 


In Google war die Fehleranzahl sehr gering: 1 Fehler vor KS und Go (+) 
2 Fehler nach KS. 


Zweiter Analysefaktor 


Abbildung 5.54: Aufteilung der Annotationsgruppen auf Regelebene 
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20 > 


FF FR RF RR 


| I Bing | I Google I I Lucy l SDL | I Systran 


Abbildung 5.55: Aufteilung der Annotationsgruppen auf Regel- und 
MU-Systemebene 


Dritter Analysefaktor: Vergleich der Fehlertypen bei Konditionalsätzen mit vs. 
ohne ‚Wenn‘ 


Fragestellung: Beinhaltet die MÜ bestimmte Fehlertypen vor bzw. nach der An- 
wendung der KS-Regel? 


HO - Es gibt keinen Unterschied in der Häufigkeit der einzelnen Fehlertypen 
vor vs. nach der Anwendung der KS-Regel. 


H1- Es gibt einen Unterschied in der Häufigkeit der einzelnen Fehlertypen vor 
vs. nach der Anwendung der KS-Regel. 


Resultat 


Auf Regelebene: 

H1 wurde nur für zwei Fehlertypen bestätigt. LX.3 (-) 
Die Fehleranzahl von LX.3 „Wort ausgelassen“ und LX.4 „Zusätz- LX.4 (—) 
liches Wort eingefügt“ sanken signifikant, nachdem die Konditio- 

nalsätze mit ‚Wenn‘ formuliert wurden. 
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Auf Regel- und MU-Systemebene: LX.3 (-): 
Nachdem die Konditionalsätze mit ‚Wenn‘ formuliert wurden, Bi SD 
sank die Fehleranzahl von LX.3 „Wort ausgelassen“ bei Bing und GR.10 (-): 
SDL und von GR.10 „Falsche Wortstellung“ bei Bing signifikant. Bi 


Alle weiteren Veränderungen waren nicht signifikant. 


Vierter Analysefaktor: Vergleich der MÜ-Qualität bei Konditionalsätzen mit 
vs. ohne ‚Wenn‘ 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität der MÜ 
der KS-Stelle nach der Anwendung der KS-Regel im Vergleich zu vor der 
Anwendung? 


HO - Es gibt keinen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


H1- Es gibt einen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


Resultat 


Auf Regelebene: 

HO wurde abgelehnt und somit H1 bestätigt. SQ (+) 

Sowohl die Stil- als auch die Inhaltsqualität stiegen signifi- CQ (+) 

kant. 

Auf Regel- und MÜ-Systemebene: 

Die Stilqualität stieg nur bei Bing signifikant, während die SQ (+): CQ (+): 
Inhaltsqualität bei Bing und SDL signifikant stieg. Bi Bi SD 


Die Qualitätsdifferenzen bei allen anderen Systemen waren 
(sehr) klein und entsprechend nicht signifikant. 


Fünfter Analysefaktor: Korrelation zwischen den Fehlertypen und der Quali- 
tät 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der Fehler- 
anzahl eines bestimmten Fehlertyps (Fehleranzahl nach KS — vor KS) und 
der Differenz der Stil- bzw. Inhaltsqualität (Qualität nach KS — vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der Fehleranzahl 
eines bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsquali- 
tät. 
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H1- Es besteht ein Zusammenhang zwischen der Differenz der Fehleranzahl ei- 
nes bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsqualitat. 


Resultat 


Auf Regelebene: 

H1 wurde nur für zwei Fehlertypen wie folgt bestätigt: neg LX.3 <<>> SQ 
Es bestand ein signifikanter starker negativer Zusam- neg GR.10 <> SQ 
menhang zwischen der Differenz der Fehleranzahl des neg LX.3 <<>> CQ 
LX.3 „Wort ausgelassen“ und der Differenz der Stilquali- 

tät und Inhaltsqualität. 

Zudem bestand ein signifikanter mittlerer negativer Zu- 

sammenhang zwischen der Differenz der Fehleranzahl 

des GR.10 „Falsche Wortstellung“ und der Differenz der 

Stilqualität. 

Auf Regel- und MÜ-Systemebene: 

Bei Bing bestand ein signifikanter starker negativer Zu- Bi 

sammenhang zwischen der Differenz der Fehleranzahl neg LX.3 <<>> SQ 
des LX.3 „Wort ausgelassen“ und der Differenz der Stil- neg LX.3 <<>> CQ 
und Inhaltsqualität. 


Bei SDL besteht ebenfalls ein signifikanter starker nega- SD 

tiver Zusammenhang zwischen der Differenz der Fehler- neg LX.3 <<>> SQ 
anzahl des LX.3 „Wort ausgelassen“ und der Differenz neg LX.3 <<>> CQ 
der Stil- und Inhaltsqualität sowie ein signifikanter star- neg GR.10 <<>> SQ 
ker negativer Zusammenhang zwischen der Differenz 

der Fehleranzahl des GR.10 „Falsche Wortstellung“ und 

der Differenz der Stilqualität. 


Alle weiteren Korrelationen waren nicht signifikant. 


Sechster Analysefaktor: Vergleich der MÜ-Qualität bei Konditionalsätzen mit 
vs. ohne ‚Wenn‘ auf Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität bei den 
einzelnen Annotationsgruppen nach der Anwendung der KS-Regel im Ver- 
gleich zu vor der Anwendung? 


HO - Bei den Annotationsgruppen gibt es keinen Qualitätsunterschied vor vs. 
nach der Anwendung der KS-Regel. 
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H1- Beiden Annotationsgruppen gibt es einen Qualitatsunterschied vor vs. nach 
der Anwendung der KS-Regel. 


Resultat 


H1 wurde nur für die Gruppe FR bestätigt: SO (+) 
Bei der Annotationsgruppe FR stiegen die Stil- und Inhaltsquali- CQ (+) 
tät signifikant, nachdem die Konditionalsätze mit ‚Wenn‘ formu- 

liert wurden. 


Bei der Annotationsgruppe FF stiegen die Stil- und Inhaltsquali- SQ (+) 


tät leicht. CQ (+) 
Bei der Annotationsgruppe RR sank die Stilqualität leicht und SQ (-) 
die Inhaltsqualitat stieg minimal. CQ (+) 


Bei der Annotationsgruppe RF sanken die Stil- und Inhaltsquali- SQ (—) 
tat insignifikant. CO (-) 


Siebter Analysefaktor: Vergleich der AEM-Scores bei Konditionalsätzen mit vs. 
ohne ‚Wenn‘ 


Fragestellung: Gibt es einen Unterschied in den AEM-Scores von TERbase bzw. 
hLEPOR nach der Anwendung der KS-Regel im Vergleich zu vor der An- 
wendung? 


HO - Es gibt keinen Unterschied in den AEM-Scores vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in den AEM-Scores vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


HO wurde nicht abgelehnt und somit konnte H1 nicht bestä- TERbase (+) 
tigt werden. hLEPOR (+) 
Die AEM-Scores von TERbase und hLEPOR stiegen nur 

leicht nachdem die Konditionalsätze mit ‚Wenn‘ formuliert 

wurden. 
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Achter Analysefaktor: Korrelation zwischen den Differenzen der AEM-Scores 
und der Qualität 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der AEM- 
Scores von TERbase bzw. hLEPOR (Mittelwert der AEM-Scores nach KS 
— vor KS) und der Differenz der allgemeinen Qualität (Qualität nach KS — 
vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


HO wurde abgelehnt und somit H1 bestätigt. pos TERbase <<>> 
Es bestand ein signifikanter starker positiver Zusammen- Q 

hang zwischen den Differenzen der Scores der beiden pos hLEPOR <<>> 
AEMs (TERbase und hLEPOR) und der Differenz der all- Q 

gemeinen Qualität. 


5.4.5 VIERTE REGEL: Eindeutige pronominale Bezüge verwenden 
5.4.5.1 Überblick 


Im Folgenden wird die KS-Regel „Eindeutige pronominale Bezüge verwenden“ 
kurz beschrieben.*’ Zudem wird zusammenfassend und anhand von Beispielen 
demonstriert, wie die Regel bei der Analyse angewendet wurde. Anschließend 
wird die Aufteilung der Testsätze im Datensatz dargestellt: 


Beschreibung der KS-Regel: Eindeutige pronominale Bezüge verwenden (tekom- 
Regel-Nr. S 102) 


Nach dieser Regel (tekom 2013: 60) sollen die Pronomen vermieden werden, 
wenn sie mehrdeutig sein könnten. Anstelle des Pronomens soll das Be- 
zugswort wiederholt werden, damit der Bezug eindeutig erkennbar wird. 


Begründung: Der Leser eines technischen Dokuments ist in der Regel we- 
niger mit der Thematik vertraut als der Autor (ebd.: 61). 


"Die für diese Regel relevanten Kontraste im Sprachenpaar DE-EN sind unter §4.5.2.3 erörtert. 
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Umsetzungsmuster: 
Vor KS: Der Satz beinhaltet ein Pronomen. 
Nach KS: Das Pronomen wird durch das Nomen ersetzt. 


KS-Stelle 
Vor KS: das Pronomen (Personalpronomen und Demonstrativpronomen) 
Nach KS: das Nomen bzw. das Demonstrativpronomen und das Nomen 
(inkl. damit verbundener Fehler in der Wortstellung) 


Beispiele 
Je früher ein Fleck behandelt wird, umso größer ist die Wahrscheinlichkeit, 


ihn rückstandslos zu entfernen. 


Je früher ein Fleck behandelt wird, umso größer ist die Wahrscheinlichkeit, 


den Fleck rückstandslos zu entfernen. 


Sofern auf der Oberfläche alte Kleberreste anhaften, sind diese vollständig 
zu entfernen. 


Sofern auf der Oberfläche alte Kleberreste anhaften, sind diese Kleberreste 
vollständig zu entfernen. 


Aufteilung der Testsätze: Die im Datensatz abgedeckten Pronomen sind 9 Per- 
sonalpronomen in verschiedenen Kasus und 15 Demonstrativpronomen. 
Diese Verteilung der beiden Pronomenarten spiegelt deren Verteilung im 
Korpus wider, denn die Demonstrativpronomen kommen im Vergleich zu 
den Personalpronomen häufiger vor. 


Im Folgenden werden die Ergebnisse der einzelnen Analysefaktoren präsen- 
tiert. 


5.4.5.2 Vergleich der Fehleranzahl vor vs. nach der Verwendung von 
pronominalen Bezügen 


Die Fehleranzahl sank minimal um 9,3 % von 43 Fehlern im Falle der Verwendung 
von Pronomen (M = ‚36 / SD =,577 / N = 120) auf 39 Fehler bei der Verwendung 
von pronominalen Bezügen (M = ‚33 / SD = ‚610 / N = 120) (Abbildung 5.56 und 
Abbildung 5.57). Der Mittelwert der Differenz (nach KS — vor KS) der Fehleran- 
zahl pro Satz lag somit bei — ‚03 (SD = ,697) mit einem 95%-Konfidenzintervall 
zwischen einem Minimum von — ‚16 (SD = ,577) und einem Maximum von ,09 
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(SD = ,803) (Bootstrapping mit 1000 Stichproben). Entsprechend war die Diffe- 
renz (nach KS — vor KS) der Fehleranzahl nicht signifikant (z (N = 120) = — ,503 
/ p = ,615). 


100 |- 
O 
50. 43 39 S 
Anzahl der fehler 
innerh. KS vor KS 
Anzahl der Fehler I Anzahl der Fehler innerh. KS vor KS 
innerh. KS nach KS I Anzahl der Fehler innerh. KS nach KS 


Abbildung 5.56: „Pronom. Bezüge verw“ Abbildung 5.57: „Pronom. Bezüge verw“ 
— Fehlersumme vor vs. nach KS — Mittelwert der Fehleranzahl pro Satz 
vor vs. nach KS 


Ein Vergleich der Annotationsgruppen RF und FR zeigt, dass relativ viele Feh- 
ler bei der Verwendung der Demonstrativpronomen (24 %) im Vergleich zu den 
Personalpronomen (7 %) auftraten und mit der Umsetzung der KS-Regel elimi- 
niert wurden (Tabelle 5.65). 


Tabelle 5.65: Daten der untersuchten Pronomen 


RF FR 


Demonstrativpronomen 8 MU (11%) 18 MU (24 %) 
Anz. d. Ausgangssatze 15; 

bei 5 MÜ-Systemen = 15 * 5 = 75 MU 

Personalpronomen 6 MU (13%) 3MÜ (7%) 
Anz. d. Ausgangssatze 9; 

bei 5 MU-Systemen = 9 * 5 = 45 MU 
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Wie Tabelle 5.65 zeigt, war die Annotationsgruppe FR größer als RF. Dies 
führte zu der allgemeinen Abnahme der Fehleranzahl nach der Regelanwendung. 
Dennoch war die Annotationsgruppe RF relativ breit vertreten, daher ist die Dif- 
ferenz in der Fehleranzahl nicht hoch. Unter 85.4.5.3 werden die Annotations- 
gruppen unter die Lupe genommen. 


5.4.5.2.1 Vergleich der Fehleranzahl auf Regel- und MÜ-Systemebene 


Eine genauere Betrachtung der einzelnen MÜ-Systeme zeigt, dass die Systeme 
sehr unterschiedlich auf die KS-Regel reagierten: 

Die Fehleranzahl bei dem NMU-System Google Translate stieg signifikant Mdiff 
= 0,167 (z (N = 24) = — 2,000 / p = ,046), allerdings wäre eine bloße Betrachtung 
der quantitativen Daten in diesem Fall irreführend, denn Google Translate konn- 
te in 83 % der Fälle (20 von 24 Sätzen) eine korrekte MÜ sowohl für das Pronomen 
(vor KS) als auch für den pronominalen Bezug (nach KS) liefern (siehe §5.4.5.3). 
Nur in 17 % der Sätze (4 von 24) stieg die Fehleranzahl (insgesamt +4 Fehler). 

Auf der anderen Seite blieb die Fehleranzahl bei dem HMÜ-System Bing unver- 
ändert und sank bei den weiteren drei Systemen: RBMÜ-System Lucy (Mdiff = 
— 125); HMU-System Systran (Mdiff = — ,125); SMÜ-System SDL (Mdiff = — ,083). 
Dieser Rückgang erwies sich als insignifikant. 

Tabelle 5.66 zeigt einen der wenigen Fälle, in denen Google Translate nur bei 
der Verwendung eines pronominalen Bezugs (nach KS) eine falsche Übersetzung 
lieferte, wobei Lucy (siehe Tabelle 5.68) und Bing (siehe Tabelle 5.69) im selben 
Beispielsatz das Pronomen (vor KS) falsch und den pronominalen Bezug (nach 
KS) richtig übersetzten. 

In Tabelle 5.66 handelt es sich um einen Wortstellungsfehler. Mehr zu den 
Fehlertypen und potenziellen Gründen dahinter wird unter 85.4.5.4 diskutiert. 


5.4.5.3 Aufteilung der Annotationsgruppen 


Wie Abbildung 5.59 veranschaulicht, war der Anteil der Annotationsgruppe RR 
besonders hoch (57,5 %). Bei 17,5 % der Sätze war die MÜ bei der Verwendung des 
Pronomens falsch und wurde nach der Verwendung des pronominalen Bezugs 
korrigiert (Gruppe FR). 

Die beiden weiteren Annotationsgruppen (FF und RF) waren ähnlich klein. Ein 
Anteil von nur 11,7 % bei der Gruppe RF besagt, dass eine Falschübersetzung der 
Sätze erst nach der Anwendung der KS-Regel eine relative Seltenheit war. 
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~ 13,3 % 
15 
is: 
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12 
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(cD) 
: o% + 200% 
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= 5 

5 | 
2 
0 


Bing Google Lucy SDL Systran 


Ip Anzahl der fehler innerh. KS vor KS 
li Anzahl der Fehler innerh. KS nach KS 


Signifikante Differenz vor vs. nach KS 


Abbildung 5.58: „Pronom. Bezüge verw“ - Summe der Fehleranzahl vor 
vs. nach KS bei den einzelnen MÜ-Systemen 


Tabelle 5.66: Beispiel 42 


Vor-KS Nur Elektrofachkräfte dürfen Zugang zur Elektrik der Maschine 
haben und diese warten. 


GNMU Only qualified electricians are allowed to access to the machine’s 
electrical system and maintain it. 
Nach-KS Nur Elektrofachkräfte dürfen Zugang zur Elektrik der Maschine 


haben und die Maschine warten. 


GNMÜ Only qualified electricians are allowed to access to the machine’s 
electrical system and the machine maintain. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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Abbildung 5.59: „Pronom. Bezüge verw“ - Aufteilung der Annotations- 
gruppen 


5.4.5.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MÜ- 
Systemebene 


Der dominante Anteil der Annotationsgruppe RR (richtig sowohl vor als auch 
nach der Anwendung der KS-Regel) ist bei allen MÜ-Systemen ohne Ausnah- 
me zu sehen. Eine genaue Betrachtung der Gruppe RR (Abbildung 5.60) auf MÜ- 
Systemebene zeigt, dass das NMÜ-System Google Translate mit 83 % seiner Über- 
setzungen auf den ersten Platz kommt; gefolgt vom RBMÜ-System Lucy mit 67 %; 
dem HMU-System Bing mit 54 %; dem HMU-System Systran mit 50 % und zum 
Schluss mit dem SMÜ-System SDL mit 33 %. 

SDL verzeichnete den niedrigsten Anteil bei der Gruppe RR und gleichzeitig 
den höchsten Anteil bei der Gruppe FF (Abbildung 5.60). Da dieses System rein 
statistisch arbeitet, zeigt dieses Ergebnis, dass ein Großteil der Testsätze selten 
bzw. nicht in den Trainingsdaten vorkommt. 


5.4.5.4 Vergleich der Fehlertypen vor vs. nach der Verwendung von 
pronominalen Bezügen 


Nach der Verwendung von pronominalen Bezügen verändert sich die Anzahl 
zweier Fehlertypen deutlich, und zwar stieg die Fehleranzahl bei Fehlertyp LX.6 
„Lexik - Konsistenzfehler“ und sank bei Fehlertyp SM.11 „Semantik - Verwechs- 
lung des Sinns“. Beide Veränderungen erwiesen sich als signifikant p = ‚013 beim 
LX.6 bzw. p = ‚027 beim SM.11 (N = 120). 

Bei der Umsetzung dieser KS-Regel wird anstatt des Pronomens, der Pronomi- 
nalbezug verwendet, entsprechend wird oft ein Nomen, das z. B. im Hauptsatz 
vorkommt, im Nebensatz wiederholt. Die Systeme übersetzten jedoch die zwei- 
te Instanz des Nomens in manchen Fällen anders, wodurch der Fehlertyp LX.6 
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25 


16,7% 


Anzahl 


8% 8% 29%21% 25% 21% 8% 4% 13% 13% 
FF 


21% 25%17% 54% 83% 67% 33%50% 


. RF RR 
Annotationsgruppe 


T Bing T Google T Lucy nz in Systran 
Die oben angezeigten Prozentzahlen sind für alle Systeme, d h. systemübergreifend, (N = 120) 
berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.60: „Pronom. Bezüge verw“ - Aufteilung der Annotations- 
gruppen bei den einzelnen MÜ-Systemen 
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Summe 


Bh vor KS I nach KS 


"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken repräsentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. „OR_1.v“ für „OR_1: orthografischer Fehler Nr. 1“ und 
„V: vor KS“; ,OR_1.n“ wäre entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario („n“). 
**Signifikante Differenz vor vs. nach KS 

OR.1: Orthografie - Zeichensetzung 

OR.2: Orthografie - Großschreibung 

LX.3: Lexik - Wort ausgelassen 

LX.4: Lexik - Zusätzliches Wort eingefügt 

LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 

LX.6: Lexik - Konsistenzfehler 

GR.7: Grammatik - Falsche Wortart / Wortklasse 

GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 

GR.9: Grammatik - Kongruenzfehler (Agreement) 

GR.10: Grammatik - Falsche Wortstellung 

SM.11: Semantik - Verwechslung des Sinns 

SM.12: Semantik - Falsche Wahl 

SM.13: Semantik - Kollokationsfehle 


Abbildung 5.61: „Pronom. Bezüge verw“ - Summe der Fehleranzahl der 
einzelnen Fehlertypen vor vs. nach KS 
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„Lexik - Konsistenzfehler“ nach der Anwendung der KS-Regel (Mv = - / SDv = 
- / Mn = ,07 / SDn = ,250 / N = 120) auftrat. Tabelle 5.67 veranschaulicht diese 
Problematik. 


Tabelle 5.67: Beispiel 43 
Vor-KS Fettreste müssen vollstandig abgewaschen werden, da sich diese 
ansonsten in der Pfanne einbrennen können. 


SMÜSDL Grease residue must be completely washed off as it can otherwise 
burn in the pan. 


Nach-KS Fettreste müssen vollständig abgewaschen werden, da sich diese 
Reste ansonsten in der Pfanne einbrennen können. 


SMÜSDL Grease residue must be completely washed off as this remains can 
otherwise burn in the pan. 


Die KS-Stelle ist fett dargestellt. Blau wird fiir die korrekten Tokens verwendet; Rot fiir die 
falschen Tokens. 


In Tabelle 5.67 konnte das System das Pronomen (vor KS) problemlos überset- 
zen, während der Pronominalbezug (nach KS) abweichend übersetzt wurde. In 
der Regel führen die Unternehmen Terminologiedatenbanken und integrieren 
sie in ihre implementierten MÜ-Systeme, so dass ein Konsistenzfehler dieser Art 
(vgl. Mertin 2006: 249) nur bei neuen bzw. nicht eingepflegten Termini vorkom- 
men würde. 

Auf der anderen Seite entstand bei der Verwendung von Pronomen (vor KS) 
ein semantisches Problem, nämlich die Verwechslung ihres Sinns; ein Fehler, der 
— trotz der Forschungsfortschritte — auf der weiterhin bestehenden Schwierig- 
keit einer Koreferenzauflösung (d. h. Identifizierung der Entität, auf die sich die 
Koreferenz bzw. das Pronomen bezieht) beruht (Ng 2017). Dieser Fehler kam ins- 
besondere bei der Übersetzung von Demonstrativpronomen Ldies und ‚diese‘) 
vor. Nach der Verwendung des Pronominalbezugs sank entsprechend die Fehler- 
anzahl des Fehlertyps SM.11 „Semantik — Verwechslung des Sinns“ von 19 auf 8 
Fehler (- 57,9 % / Mv = ‚16 / SDv = ‚367 / Mn = ‚07 / SDn = ‚250 / N = 120). 

In Tabelle 5.68 wurde der Sinn des Demonstrativpronomens ‚diese‘ vom Sy- 
stem nicht richtig erkannt. Auf der anderen Seite wurde der Pronominalbezug 
korrekt übersetzt. 
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Tabelle 5.68: Beispiel 44 


Vor-KS Nur Elektrofachkräfte dürfen Zugang zur Elektrik der Maschi- 
ne haben und diese warten. 


RBMU Lucy Only qualified electricians are allowed to access to the machi- 
ne’s electrical system and maintain these. 


Nach-KS Nur Elektrofachkrafte diirfen Zugang zur Elektrik der Maschi- 
ne haben und die Maschine warten. 


RBMU Lucy Only qualified electricians are allowed to access to the machi- 
ne’s electrical system and maintain the machine. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.5.4.1 Vergleich der Fehlertypen auf Regel- und MÜ-Systemebene 


Eine genauere Untersuchung der Fehlertypen bei den verschiedenen MÜ-Systemen 
zeigt, dass gar kein Fehlertyp sich bei einem bestimmten System signifikant ver- 
änderte. Auch die Differenzen des Fehlertyps LX.6 „Lexik - Konsistenzfehler“ 
und Fehlertyp SM.11 „Semantik - Verwechslung des Sinns“ waren bei keinem 
der analysierten Systeme signifikant. 

Wesentliche (nicht signifikante) Veränderungen gab es jedoch bei zwei Syste- 
men: Bei SDL stieg die Fehleranzahl vom Fehlertyp LX.6 „Lexik - Konsistenzfeh- 
ler“ von 0 auf 4 Fehler. Dies kann bei einem rein SMÜ-System auf das Nichtvor- 
handensein der Segmente in den Trainingsdaten zurückgeführt werden. Bei Lu- 
cy nahm die Fehleranzahl des Fehlertyps SM.11 „Semantik - Verwechslung des 
Sinns“ von 6 auf 1 Fehler ab. Hierbei zeigte das RBMÜ-System eine Schwäche 
beim Übersetzen von Demonstrativpronomen, denn alle fünf korrigierten Fehler 
der Demonstrativpronomen waren für das System ambig. 


5.4.5.5 Vergleich der MÜ-Qualität vor vs. nach der Verwendung von 
pronominalen Bezügen sowie die Korrelation zwischen den 
Fehlertypen und der Qualität 


Nach der Verwendung der pronominalen Bezüge gab es einen kleinen insignifi- 
kanten Rückgang bei der Stilqualität gekoppelt mit einem kleinen insignifikanten 
Anstieg bei der Inhaltsqualität (Abbildung 5.63):38 


38 Definitionen der Qualität unter §4.5.5.1. 
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Summe 
"Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 
folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 
“Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 
Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen vorkamen: In dieser 
Grafik kamen die Fehlertypen 1, 2, 4, 5, 7, 8 und 13 bei gar keinem MÜ-System vor. Zudem kam 
der Fehlertyp 12 nur einmal jeweils bei 3 MÜ-Systemen vor. 


Abbildung 5.62: „Pronom. Bezüge verw“ - Summe der Fehleranzahl der 
Fehlertypen vor vs. nach KS bei den einzelnen MÜ-Systemen 
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Die Stilqualitat sank um 1,5 % (Mv = 4,04 / SDv = ,495 / Mn = 3,98 / SDn 
= ,401 / N = 77). Die Inhaltsqualität stieg um 2,3 % (Mv = 4,43 / SDv = ,554 / 
Mn = 4,53 / SDn = ,494 / N = 77). Der Mittelwert der Differenz (nach KS — vor 
KS) der vergebenen Qualitätspunkte pro Satz lag für die Stilqualität bei — ‚063 
(SD = ,460) mit einem 95%-Konfidenzintervall zwischen einem Minimum von 
— ‚168 und einem Maximum von ‚041 und für die Inhaltsqualität bei ‚101 (SD = 
‚584) mit einem 95%-Konfidenzintervall zwischen einem Minimum von — ‚032 
und einem Maximum von ‚233 (Bootstrapping mit 1000 Stichproben) (Abbildung 
5.64). Die Differenzen (nach KS — vor KS) in der Stil- und Inhaltsqualität waren 
nicht signifikant (z (N = 77) = - 1,333 / p = ,183) bzw. (z (N = 77) = — 1,719 / p = 
086). 

I Differenz SQ (nach KS - vor KS) 


I Differenz CO (nach KS - vor KS) 
T Differenz Q (nach KS - vor KS) 


95% Cl 
d 


95% Cl 


ss Mittelwert SO vor KS 
Mittelwert SQ nach KS 
së Mittelwert CO vor KS 
Mittelwert CQ nach KS 
«> Mittelwert Q vor KS 
WW Nittelwert Q nach KS 


Abbildung 5.63: „Pronom. Bezüge verw“ Abbildung 5.64: „Pronom. Bezüge verw“ 
— Mittelwerte der Qualität vor und nach ` - Mittelwert der Qualitatsdifferenzen 
KS 


Grundsätzlich ist ein solches Ergebnis vorstellbar, denn die Wiederholung des 
Bezugs unterstützt durch eine höhere Eindeutigkeit die MÜ. Dies wiederum sorgt 
für eine bessere Verständlichkeit des MÜ-Outputs. Gleichzeitig wird auf stilisti- 
scher Ebene der MÜ-Output durch die Wiederholung des Bezugs beeinträchtigt. 

In Tabelle 5.69 wurde der Kongruenzfehler im Pronomen ‚them‘ nach der An- 
wendung der KS-Regel behoben. Daraufhin stieg die Inhaltsqualität der MÜ (+0,50 
Punkte auf der Likert-Skala), während die Stilqualitat sank (— ‚13 Punkte auf der 
Likert-Skala). 

Die Humanevaluation lieferte genauere Inputs zu den beeinflussten Qualitäts- 
kriterien. Wie die Abbildung 5.65 zeigt, sanken alle Qualitätskriterien mit Aus- 
nahme des Stilqualitätskriteriums SQ3 „natürliche bzw. idiomatische MÜ“ nach 
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Tabelle 5.69: Beispiel 45 


Vor-KS Nur Elektrofachkräfte dürfen Zugang zur Elektrik der Maschine 
haben und diese warten. 


HMU Bing Only qualified electricians are allowed to access to the machine’s 
electrical system and maintain them. 


Nach-KS Nur Elektrofachkräfte dürfen Zugang zur Elektrik der Maschine 
haben und die Maschine warten. 


HMÜ Bing Only qualified electricians are allowed to access to the machine’s 
electrical system and maintain the machine. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


der Regelanwendung leicht. Da die Qualitätskriterien negativ formuliert sind, 
deutet ein Rückgang auf eine Verbesserung der Qualität hin (d. h. alle Qualitäts- 
kriterien mit Ausnahme der Idiomatik (SQ3) wurden nach der Regelanwendung 
besser bewertet). 

An dieser Stelle folgt Tabelle 5.70, in dem die MÜ vor und nach der Anwendung 
der Regel fehlerfrei war, jedoch ging die Verwendung des pronominalen Bezugs 
mit einem Anstieg der Inhaltsqualität (+ 0,50 Punkte auf der Likert-Skala) und 
einem Rückgang der Stilqualität (— ‚38 Punkte auf der Likert-Skala) einher. 


Tabelle 5.70: Beispiel 46 


Vor-KS Um die Startlinie festzustellen, kann mit Kreide diese markiert 
werden. 


HMÜ Bing In order to determine the starting line, it can be marked with 
chalk. 


Nach-KS Um die Startlinie festzustellen, kann mit Kreide diese Linie mar- 
kiert werden. 


HMÜ Bing In order to determine the starting line, this line can be marked 
with chalk. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


348 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


13% 


400 F 


408 
361 
300 F 
200 I — 29% — 13% 
153 
128 
— 9% 108 111 
100 — 24% 86 78 
59 45 l 
0 [l D | | | | 


SQ1_v SOL pn SQ2_v SQ2_n SQ3_v SQ3_n CQ1_v COl_n CQ2_v CQ2_n 
SQ1: Ü ist nicht korrekt bzw. nicht klar dargestellt, d. h. nicht orthografisch. 
SQ2: Ü ist nicht ideal für die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: Ü klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. 
CQ2: Ü ist nicht leicht zu verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.65: „Pronom. Bezüge verw“ - Vergleich der Qualitätskri- 
terien 


5.4.5.5.1 Korrelation zwischen den Fehlertypen und der Qualität 


Auf Basis der Fehlerannotation zusammen mit der Humanevaluation gibt uns ei- 
ne Spearman-Korrelationsanalyse Aufschluss, wie die Veränderung bei der Feh- 
leranzahl bei jedem Fehlertyp (Anz. nach KS - Anz. vor KS) mit den Qualitäts- 
unterschieden (Q. nach KS - Q. vor KS) zusammenhängt. Mithilfe des Spearman- 
Tests erwies sich ein signifikanter mittlerer negativer Zusammenhang zwischen 
der Differenz in den Fehlertypen GR.10 „Falsche Wortstellung“ und SM.11 „Ver- 
wechslung des Sinns“ einzeln und der Differenz in der Stilqualität; sowie ein 
signifikanter schwacher negativer Zusammenhang zwischen der Differenz im 
Fehlertyp LX.6 „Konsistenzfehler“ und der Differenz in der Stilqualität. (Tabel- 
le 5.71) 

Bezüglich der Inhaltsqualität erwies sich ein signifikanter mittlerer negati- 
ver Zusammenhang zwischen der Differenz in den Fehlertypen LX.6, GR.10 und 
SM.11 einzeln und der Differenz in der Inhaltsqualität; sowie ein signifikanter 
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schwacher negativer Zusammenhang zwischen der Differenz in Fehlertyp LX.3 
„Wort ausgelassen“ und der Differenz in der Inhaltsqualität. (Tabelle 5.71) 

Weitere Korrelationen zwischen anderen einzelnen Fehlertypen und der Qua- 
lität konnten nicht nachgewiesen werden. 


Tabelle 5.71: „Pronom. Bezüge verw“ - Korrelation zwischen den Feh- 
lertypen und der Qualität 


N p P 
Differenz SQ (nach KS — vor KS) 
Differenz der Anzahl der LX.3 „W. ausgelassen“ 77 ‚084 — ,198 
Differenz der Anzahl der LX.6 „Konsistenzfehler“ 77 ‚042 — ‚232 
Differenz der Anzahl der GR.10 „f. Wortstellung“ 77 ‚003 —,330 
Differenz der Anzahl der SM.11 „Verwechs. des 77 <,001 —,394 
Sinns“ 
Differenz CQ (nach KS — vor KS) 
Differenz der Anzahl der LX.3 „W. ausgelassen“ 77 025 - ,256 
Differenz der Anzahl der LX.6 „Konsistenzfehler“ 77 ‚006 —,309 
Differenz der Anzahl der GR.10 „f. Wortstellung“ 77 004 —,327 
Differenz der Anzahl der SM.11 ,Verwechs. des 77 004 — ,323 
Sinns“ 
Differenz allg. Q (nach KS — vor KS) 
Differenz der Anzahl der LX.3 „W. ausgelassen“ 77 ‚021 — ‚263 
Differenz der Anzahl der LX.6 „Konsistenzfehler“ 77 ‚009 — ,294 
Differenz der Anzahl der GR.10 „f. Wortstellung“ 77 ‚001 —,371 
Differenz der Anzahl der SM.11 „Verwechs. des 77 <,001 —,388 
Sinns“ 


*In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitätsvariable signifikant korrelieren. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Diese signifikanten negativen Korrelationen deuten darauf hin, dass sobald 
die Fehleranzahl eines der genannten Fehler nach der Regelanwendung sank, 
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die Qualitat stieg und umgekehrt, bei einem Anstieg der Fehleranzahl, die Qua- 
litat sank. Tabelle 5.67 demonstriert den zweiten Fall: In Tabelle 5.67 trat bei der 
Wiederholung des Bezugs (nach KS) der lexikalische Fehlertyp „Konsistenzfeh- 
ler“ (LX.6) in ‚remains‘ auf. Bei einer Formulierung des Satzes mit dem Pronomen 
(vor KS), konnte das MU-System (hier SDL) das Pronomen problemlos überset- 
zen. Daraufhin sanken die Stilqualität um 0,75 Punkte und Inhaltsqualitat um 
1,00 Punkte auf der Likert-Skala. 

Umgekehrt wurde Tabelle 5.72 der Wortstellungsfehler (GR.10) und der seman- 
tische Fehler SM.11 in ‚this‘ nach der Verwendung des Bezugs (nach KS) korri- 
giert: 


Tabelle 5.72: Beispiel 47 


Vor-KS Um die Startlinie festzustellen, kann mit Kreide diese markiert 
werden. 


SMU SDL In order to determine the starting line, can be marked with chalk 
this. 


Nach-KS Um die Startlinie festzustellen, kann mit Kreide diese Linie mar- 
kiert werden. 


SMÜSDL In order to determine the starting line, this line can be marked 
with chalk. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Daraufhin stiegen die Stilqualität um 1,25 Punkte und die Inhaltsqualität um 
1,38 Punkte auf der Likert-Skala. 


5.4.5.5.2 Vergleich der Qualität auf Regel- und MU-Systemebene 


Wie Abbildung 5.66 zeigt, waren die Inhalts- und Stilqualität in den meisten Fäl- 
len sowohl durchschnittlich als auch von ihren Intervallen vergleichbar. 

Nur bei zwei MÜ-Systemen gab es signifikante Unterschiede (Tabelle 5.73): 
Bei dem NMÜ-System Google Translate sank die Stilqualität (- 5,1%) (z (N = 24) 
= — 2,602 / p = ‚009) und bei dem RBMÜ-System Lucy stieg die Inhaltsqualität 
(+ 4,7 %) (z (N = 14) = — 2,187 / p = ‚029). 

In Tabelle 5.74 fanden die Bewerter die Übersetzung von Google Translate 
stilistisch schlechter nach Verwendung des Bezugs anstatt des Pronomens (SQ: 
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BT um 


Regel- und Systemebene - Vergleich der Mittelwerte vor-KS vs. nach-KS 3 


Stilqualität - Inhaltsqualität 


KS Reget Nomen statt Pronomen verwenden 


T 
Lucy 


MU-System 


Abbildung 5.66: „Pronom. Bezüge verw“ — Mittelwerte der Qualität vor 
vs. nach KS bei den einzelnen MÜ-Systemen 


Tabelle 5.73: „Pronom. Bezüge verw“ - Signifikanz der Qualitätsverän- 
derung bei den einzelnen MÜ-Systemen 


Bing 
Google 
Lucy 
SDL 


Systran 


p: Signifikanz 
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Differenz SQ 
(nach KS — vor KS) 
N p D 
11 ,685 — ,405 
24 009 — 2,602 
14 ,345 — ,944 
17,290 — 1,059 
11  ,823 — ‚223 


Differenz CQ 
(nach KS — vor KS) 
N p D 
11 ,210 — 1,254 
24  ,370 — ,897 
14 ‚0229 — 2,187 
17 ,247 — 1,157 
11 ,812 — ‚238 


z: Teststatistik 


Differenz allg. Q 
(nach KS — vor KS) 
N p Z 
11  ,413 — ,819 
24 5034 — 2,123 
14 ,089 —1,699 
17,776 — ‚284 
11  ,929 — ,089 


nicht signifikant (p > 0,05) 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


— ,50 Punkte auf der Likert-Skala), wobei die Bewertung der Inhaltsqualitat im 
Durchschnitt unverandert blieb (CQ: 0,00 Punkte auf der Likert-Skala). 


Tabelle 5.74: Beispiel 48 


Vor-KS Überprüfen Sie die Zuweisung des Ports im Geräte-Manager und 
stellen Sie diesen ggf. um. 


GNMU Check the assignment of the port in the Device Manager and, if 
necessary, modify it. 


Nach-KS Überprüfen Sie die Zuweisung des Ports im Geräte-Manager und 
stellen Sie diesen Port ggf. um. 


GNMÜ Check the assignment of the port in the Device Manager and, if 
necessary, modify this port. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Bei Lucy stieg z. B. im folgenden Satz (Tabelle 5.75) die Inhaltsqualitat (CQ: 
+ 0,75 Punkte auf der Likert-Skala) und die Stilqualität (SO: + 0,38 Punkte auf der 
Likert-Skala). 


Tabelle 5.75: Beispiel 49 


Vor-KS Ist der c-Faktor mit einer anderen Luftdichte angegeben wor- 
den, so ist dieser im Feld "Luftdichte" einzutragen. 


RBMÜ Lucy If the c-factor has been specified with a different air density, 
this must be entered in the "Air density" field. 


Nach-KS Ist der c-Faktor mit einer anderen Luftdichte angegeben wor- 
den, so ist dieser Faktor im Feld "Luftdichte" einzutragen. 


RBMU Lucy If the c-factor has been specified with a different air density, 
this factor must be entered in the "Air density" field. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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5.4.5.5.3 Korrelation zwischen den Fehlertypen und der Qualität auf Regel- und 
MÜ-Systemebene 


Anhand der Spearman-Korrelationsanalyse erwies sich nur bei dem HMÜ-Sys- 
tem Systran eine signifikante starke negative Korrelation zwischen der Differenz 
in Fehlertyp SM.11 „Verwechslung des Sinns“ und der Differenz in der Stilqualität. 
(Tabelle 5.76) 


Tabelle 5.76: „Pronom. Bezüge verw“ - Korrelationen zwischen den 
Fehlertypen und der Qualität bei den einzelnen MÜ-Systemen 


Systran 

N D p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl SM.11 „Verwechs. des Sinns“ 11 ‚035 —,638 
Differenz CQ (nach KS — vor KS) 
Diff. der Anzahl SM.11 ,Verwechs. des Sinns“ 11 ` ` — 564 
Differenz Q (nach KS — vor KS) 
Diff. der Anzahl SM.11 ,Verwechs. des Sinns“ 11  ,038 —,629 


“In der Tabelle werden nur die Fehlertypen dargestellt, die bei mind. einer Qualitätsvariable eine 
signifikante Korrelation aufweisen. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Fehlertyp SM.11 erschien bei Systran sowohl vor als auch nach der Anwen- 
dung der KS-Regel (siehe Abbildung 5.62). Die negative Spearman-Korrelation 
besagt entsprechend, dass beim Auftreten dieses Fehlers, die Qualität deutlich 
sank. Umgekehrt stieg mit der Eliminierung dieses Fehlers die Qualität deutlich. 


5.4.5.6 Vergleich der MÜ-Qualität vor vs. nach der Verwendung von 
pronominalen Bezügen auf Annotationsgruppenebene 


Die Qualitätsunterschiede®” waren nur bei den Annotationsgruppen FR und RF 
groß, während bei den Gruppen FF und RR das Qualitätsniveau relativ vergleich- 
bar blieb (Abbildung 5.67). 


Definitionen der Qualität unter §4.5.5.1. 
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Annotationsgruppenebene - Vergleich der Mittelwerte vor-KS vs. nach-KS zum 
Zug 


Stilqualitat - Inhaltsqualität - Allgemeine Qualität 


KS-Regek Nomen statt Pronomen verwenden 


T T T T 
FF FR RF RR 
Annotationsgruppe 


Abbildung 5.67: „Pronom. Bezüge verw“ - Mittelwerte der Qualität vor 
vs. nach KS auf Annotationsgruppenebene 


In der Gruppe FF wurden die Sätze vor und nach der Anwendung der KS-Regel 
aus unterschiedlichen Gründen falsch übersetzt. Durchschnittlich sanken die Stil- 
und Inhaltsqualität leicht nachdem der Bezug wiederholt wurde (nach KS). 

In der Gruppe FR stiegen erwartungsgemäß die Stil- und Inhaltsqualität si- 
gnifikant (vgl. Tabelle 5.72), siehe Tabelle 5.77: bei der Stilqualität (z (N = 12) = 
— 2,547 / p = ,011) bzw. bei der Inhaltsqualitat (z (N = 12) = — 3,072/ p = ,002). Wie 
die Aufteilung der Annotationsgruppen (siehe §5.4.5.3) zeigte, betrug der Anteil 
dieser Gruppe 18 % der analysierten Sätze bei dieser Regel. Die nach der Anwen- 
dung der Regel eliminierten Fehler waren unterschiedlich, sodass ein durch die 
Regel bestimmtes Fehlerbehandlungsmuster schwer erkennbar ist. 

In der Gruppe RF sanken die Stil- und Inhaltsqualität signifikant (vgl. Tabel- 
le 5.67), siehe Tabelle 5.77: bei der Stilqualitat (z (N = 10) = — 2,509 / p = ,012) bzw. 
bei der Inhaltsqualität (z (N = 10) = — 2,313/ p = ,012). Der Anteil der Sätze in 
dieser Gruppe betrug 12 % der analysierten Sätze bei dieser Regel (siehe §5.4.5.3). 
Die nach der Regelanwendung vorgekommenen Fehler variierten. 

Die Gruppe RR (Übersetzung vor und nach KS fehlerfrei) hatte den größten 
Anteil von 58 % der analysierten Sätze (siehe §5.4.5.3). Bei dieser Gruppe stieg 
durchschnittlich die Inhaltsqualität leicht, während bei der Stilqualität eine leich- 
te Minderung verzeichnet wurde (Abbildung 5.67). Hierbei fanden die Bewerter, 
dass die wiederholte Erwähnung des Bezugs eine Präzisierung des Inhalts der 
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Tabelle 5.77: „Pronom. Bezüge verw“ — Signifikanz der Qualitätsverän- 
derung auf Annotationsgruppenebene 


N p Z 
(Signifikanz) (Teststatistik) 
Annotationsgruppe FF 
Differenz SQ (nach KS — vor KS) 8 ‚443 — ‚768 
Differenz CQ (nach KS — vor KS) 8 ‚799 — ‚254 
Differenz allg. Q (nach KS — vor KS) 8 ‚735 — ‚338 
Annotationsgruppe FR 
Differenz SQ (nach KS — vor KS) 12 ‚011 — 2,547 
Differenz CQ (nach KS — vor KS) 12 ‚002 — 3,072 
Differenz allg. Q (nach KS — vor KS) 12 ‚002 — 3,065 
Annotationsgruppe RF 
Differenz SQ (nach KS — vor KS) 10 ‚012 — 2,509 
Differenz CQ (nach KS — vor KS) 10 ‚012 — 2,313 
Differenz allg. Q (nach KS — vor KS) 10 ‚012 — 2,527 
Annotationsgruppe RR 
Differenz SQ (nach KS — vor KS) 47 ‚220 — 1,227 
Differenz CQ (nach KS — vor KS) 47 ‚086 — 1,718 
Differenz allg. Q (nach KS — vor KS) 47 ‚795 — ‚260 


MÜ ermöglichte, dennoch litt der Stil unter dieser Wiederholung. In Tabelle 5.70 
war die MÜ vor und nach der Regelanwendung fehlerfrei. Nach der Regelanwen- 
dung stieg die Inhaltsqualität um 0,50, gleichzeitig sank die Stilqualität um 0,88 
Punkte auf der Likert-Skala. 


5.4.5.7 Vergleich der AEM-Scores vor vs. nach der Verwendung von 
pronominalen Bezügen sowie die Korrelation zwischen den 
AEM-Scores und der Qualität 


Der Vergleich der AEM-Scores bei der Verwendung der Pronomen (vor KS) und 
nach der Wiederholung des Bezugs (nach KS) zeigte sowohl mit TERbase als auch 
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mit hLEPOR eine geringe nicht signifikante Verschlechterung der AEM-Scores 
(Abbildung 5.68). 


0,1 


as 0,064 8472 
® o 0,0167 
-0,1155 
-0,0065 


& Differenz TERbase (nach KS - vor KS) 


03 æa Differenz hLEPOR (nach KS - vor KS) 


Differenz = AEM-Score nach KS minus AEM-Score vor KS 


Abbildung 5.68: „Pronom. Bezüge verw“ - Mittelwert der Differenz der 
AEM-Scores 


Der Mittelwert der Differenz (nach KS — vor KS) im AEM-Score pro Satz lag 
für TERbase bei — ‚061 (SD = ,240) und für die hLEPOR bei — ‚015 (SD = ,141) mit 
einem 95%-Konfidenzintervall (Bootstrapping mit 1000 Stichproben) (Abbildung 
5.68). Durch diese kleinen Unterschiede waren die Differenzen (nach KS — vor 
KS) in TERbase und hLEPOR nicht signifikant (z (N = 77) = — 1,962 / p = ,050) 
bzw. (z (N = 77) = — 1,221 / p = ,222). Eine mögliche Interpretation, warum die 
Differenz der AEM-Scores klein war: Bei dieser Regel gab es signifikante Verän- 
derungen in der Fehleranzahl bei zwei Fehlertypen: der lexikalische Fehlertyp 
LX.6 „Konsistenzfehler“ stieg (vlg. Tabelle 5.67) und der semantische Fehlertype 
SM.11 „Verwechslung des Sinns“ sank (vlg. Tabelle 5.72) nach der Wiederholung 
des Bezugs (nach KS). In anderen Worten musste nach den AEMs in beiden Sze- 
narien einer der beiden Fehler korrigiert werden, und zwar SM.11 vor KS und 
LX.6 nach KS. Dadurch näherten sich möglicherweise die AEM-Scores der bei- 
den Szenarien an und fiel die Differenz zwischen den AEM-Scores klein aus. 
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5.4.5.7.1 Korrelation zwischen den Differenzen in den AEM-Scores und der Qua- 
litat 

Durch das Auftreten von Fehlern sowohl vor als auch nach der Anwendung 
der KS konnte auch kein signifikanter Unterschied in der Qualitat nachgewie- 
sen werden (siehe §5.4.5.5). Mithilfe des Spearman-Korrelationstests erwies sich 
ein signifikanter mittlerer positiver Zusammenhang zwischen den Differenzen 
der AEM-Scores von TERbase und hLEPOR und der Differenz der allgemeinen 
Qualitat. Tabelle 5.78 demonstriert die Korrelationswerte: 


Tabelle 5.78: „Pronom. Bezüge verw“ - Korrelation zwischen den Dif- 
ferenzen der AEM-Scores und den Qualitätsdifferenzen 


N Signifikanz Korrelations- Stärke 

(p) koeffizient der 

(p) Korrelation 

Korrelation zw. 77 ‚003 ‚330 mittlerer 
Differenz in der allg. Zusammen- 
Qualität und Differenz hang 


des TERbase-Scores 
(nach KS — vor KS) 


Korrelation zw. 77 < ,001 ,467 mittlerer 
Differenz in der allg. Zusammen- 
Qualität und Differenz hang 


des hLEPOR-Scores 
(nach KS — vor KS) 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Diese Korrelation zeigt, dass die Scores der beiden AEMs sich relativ synchron 
in die gleiche Richtung wie die Qualität bewegten. 


5.4.5.8 Analyse der vierten Regel - Validierung der Hypothesen 


Um die vorgestellten Ergebnisse auf die Forschungsfragen der Studie zurück- 
zuführen, listet dieser Abschnitt die zugrunde liegenden Hypothesen der For- 
schungsfragen zusammen mit einer Zusammenfassung der Ergebnisse der vier- 
ten analysierten Regel in tabellarischer Form auf. Für einen schnelleren Überblick 
steht (+) für eine Verbesserung bzw. einen Anstieg z. B. im Sinne eines Quali- 
tätsanstiegs, verbesserter AEM-Scores oder eines Anstiegs der Fehleranzahl; (—) 
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steht für einen Rückgang; die grüne Farbe symbolisiert eine signifikante Veran- 


derung; neg steht für eine negative Korrelation und pos für eine positive Korrelati- 


on; <<>> steht für eine starke Korrelation und <> für eine mittlere Korrelation.*” 


Regel 4: Eindeutige pronominale Bezüge verwenden 


Erster Analysefaktor: Vergleich der Fehleranzahl vor vs. nach der Verwen- 
dung der pronominalen Bezüge 


Fragestellung: Gibt es einen Unterschied in der Fehleranzahl nach der Anwen- 
dung der KS-Regel im Vergleich zu vor der Anwendung? 


HO - Es gibt keinen Unterschied in der Fehleranzahl vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in der Fehleranzahl vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


Auf Regelebene: 

H0 wurde nicht abgelehnt und somit konnte H1 nicht bestätigt Anz.F. (—) 
werden. 

Die Fehleranzahl sank minimal nach der Verwendung der prono- 

minalen Bezüge. 

Auf Regel- und MÜ-Systemebene: 

Bei Google stieg die Fehleranzahl signifikant nach der Verwen- Go (+) 
dung der pronominalen Bezüge. 


Bei Bing blieb die Fehleranzahl unverändert. Bi (=) 

Bei den drei anderen Systemen sank die Fehleranzahl leicht. Lu (-) 
SD (-) 
Sy (>) 


Schwache Korrelationen werden in dieser Übersicht nicht angezeigt. 
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Zweiter Analysefaktor 


Abbildung 5.69: Aufteilung der Annotationsgruppen auf Regelebene 
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% 


FF FR . RF RR 
Annotationsgruppe 


| I Bing | B Google H I Lucy | I SDL | D Systran 


Abbildung 5.70: Aufteilung der Annotationsgruppen auf Regel- und 
MU-Systemebene 
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Dritter Analysefaktor: Vergleich der Fehlertypen vor vs. nach der Verwen- 
dung der pronominalen Beziige 


Fragestellung: Beinhaltet die MU bestimmte Fehlertypen vor bzw. nach der An- 
wendung der KS-Regel? 


HO - Es gibt keinen Unterschied in der Häufigkeit der einzelnen Fehlertypen 
vor vs. nach der Anwendung der KS-Regel. 


H1- Es gibt einen Unterschied in der Häufigkeit der einzelnen Fehlertypen vor 
vs. nach der Anwendung der KS-Regel. 


Resultat 


Auf Regelebene: 

H1 wurde nur für zwei Fehlertypen bestätigt. LX.6 (+) 
Die Fehleranzahl von LX.6 „Konsistenzfehler“ stieg signifikant SM.11 (—) 
und die Fehleranzahl von SM.11 „Verwechslung des Sinns“ sarık 
signifikant nach der Verwendung der pronominalen Bezüge. 

Auf Regel- und MÜ-Systemebene: 

Auf Systemebene gab es keinen bestimmten Fehlertyp, der nach SD: 

der Verwendung der pronominalen Bezüge statistisch signifikant LX.6 (+) 
beeinflusst wurde. 

Dennoch wurde ein wesentlicher (nicht signifikanter) Anstieg Lu: 

in LX.6 „Konsistenzfehler“ bei SDL und ein wesentlicher (nicht SM.11 (—) 
signifikanter) Rückgang in SM.11 „Verwechslung des Sinns“ bei 

Lucy beobachtet. 


Alle weiteren Veränderungen der Fehlertypen waren sehr ge- 
ring. 


Vierter Analysefaktor: Vergleich der MÜ-Qualität vor vs. nach der Verwen- 
dung der pronominalen Beziige 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität der MU 
der KS-Stelle nach der Anwendung der KS-Regel im Vergleich zu vor der 
Anwendung? 


HO - Es gibt keinen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


H1- Es gibt einen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 
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Resultat 

Auf Regelebene: 

HO wurde nicht abgelehnt und somit konnte H1 nicht bestä- SQ (—) 
tigt werden. CQ (+) 


Die Stilqualität sank leicht, während die Inhaltsqualität 

leicht stieg. ` 

Auf Regel- und MU-Systemebene: 

Die Stilqualität sank nur bei Google signifikant, während die SQ (—): CQ (+): 
Inhaltsqualität nur bei Lucy signifikant stieg. Go Lu 


Die Qualitätsdifferenzen bei allen anderen Systemen fielen 
(sehr) gering aus und waren entsprechend nicht signifikant. 


Fünfter Analysefaktor: Korrelation zwischen den Fehlertypen und der Quali- 
tät 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der Fehler- 
anzahl eines bestimmten Fehlertyps (Fehleranzahl nach KS — vor KS) und 
der Differenz der Stil- bzw. Inhaltsqualität (Qualität nach KS — vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der Fehleranzahl 
eines bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsquali- 
tät. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der Fehleranzahl ei- 
nes bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsqualität. 


Resultat 


Auf Regelebene: 

H1 wurde nur für drei Fehlertypen wie folgt bestätigt: | neg GR.10 <> SQ 
Es bestand ein signifikanter mittlerer negativer Zusam- neg SM.11 <> SQ 
menhang zwischen der Differenz der Fehleranzahl des 

GR.10 „Falsche Wortstellung“ und SM.11 „Verwechslung neg LX.6 <> CQ 
des Sinns“ einzeln und der Differenz der Stilqualität. neg GR.10 <> CQ 
Zudem bestand ein signifikanter mittlerer negativer Zu- neg SM.11 <> CQ 
sammenhang zwischen der Differenz der Fehleranzahl 

des LX.6 (Konsistenzfehler), GR.10 und SM.11 einzeln und 

der Differenz der Inhaltsqualitat. 
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Auf Regel- und MU-Systemebene: 

Die einzige signifikante Korrelation bestand bei Systran Sy 

und es handelte sich dabei um einen signifikanten star- neg SM.11 <<>> SQ 
ken negativen Zusammenhang zwischen der Differenz 

der Fehleranzahl des SM.11 „Verwechslung des Sinns“ 

und der Differenz der Stilqualitat. 


Alle weiteren Korrelationen waren nicht signifikant. 


Sechster Analysefaktor: Vergleich der MÜ-Qualität vor vs. nach der Verwen- 
dung der pronominalen Bezüge auf Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität bei den 
einzelnen Annotationsgruppen nach der Anwendung der KS-Regel im Ver- 
gleich zu vor der Anwendung? 


HO - Bei den Annotationsgruppen gibt es keinen Qualitätsunterschied vor vs. 
nach der Anwendung der KS-Regel. 


H1- Beiden Annotationsgruppen gibt es einen Qualitätsunterschied vor vs. nach 
der Anwendung der KS-Regel. 


Resultat 


H1 wurde für die Gruppen FR und RF bestätigt: SO (+) 
Bei der Annotationsgruppe FR stiegen die Stil- und Inhaltsquali- CQ (+) 
tät signifikant nach der Verwendung der pronominalen Bezüge. 


Bei der Annotationsgruppe RF sanken die Stil- und Inhaltsquali- SQ (—) 
tät signifikant. CQ (-) 


Bei der Annotationsgruppe FF gingen die Stil- und Inhaltsquali- SQ (—) 
tät leicht zurück. CQ (-) 


Bei der Annotationsgruppe RR sank die Stilqualität leicht und SQ (-) 
die Inhaltsqualität nahm leicht zu. CO (+) 


Siebter Analysefaktor: Vergleich der AEM-Scores vor vs. nach der Verwen- 
dung der pronominalen Bezüge 


Fragestellung: Gibt es einen Unterschied in den AEM-Scores von TERbase bzw. 
hLEPOR nach der Anwendung der KS-Regel im Vergleich zu vor der An- 
wendung? 
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HO - Es gibt keinen Unterschied in den AEM-Scores vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in den AEM-Scores vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


HO wurde nicht abgelehnt und somit konnte H1 nicht bestä- TERbase (—) 
tigt werden. hLEPOR (-) 
Die AEM-Scores von TERbase und hLEPOR verschlechtern 

sich nur leicht nach der Verwendung der pronominalen Be- 

züge. 


Achter Analysefaktor: Korrelation zwischen den Differenzen der AEM-Scores 
und der Qualität 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der AEM- 
Scores von TERbase bzw. hLEPOR (Mittelwert der AEM-Scores nach KS 
— vor KS) und der Differenz der allgemeinen Qualität (Qualität nach KS — 
vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. pos TERbase <> Q 
Es bestand ein signifikanter mittlerer positiver Zusam- pos hLEPOR <> Q 
menhang zwischen den Differenzen der Scores der bei- 

den AEMs (TERbase und hLEPOR) und der Differenz der 

allgemeinen Qualitat. 


5.4.6 FUNFTE REGEL: Partizipialkonstruktionen vermeiden 
5.4.6.1 Uberblick 


Im Folgenden wird die KS-Regel ,,Partizipialkonstruktionen vermeiden" kurz be- 
schrieben.*! Zudem wird zusammenfassend und anhand eines Beispiels die Um- 


“Dje für diese Regel relevanten Kontraste im Sprachenpaar DE-EN sind unter §4.5.2.3 erörtert. 
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setzung der Regel bei der Analyse demonstriert. Anschließend wird die Auftei- 
lung der Testsätze im Datensatz dargestellt: 


Beschreibung der KS-Regel: Partizipialkonstruktionen vermeiden (tekom-Regel- 
Nr. S 303) 


Nach dieser Regel (tekom 2013: 70) soll statt der Partizipialkonstruktion 
eine einfache Satzstruktur mit mehreren kurzen Sätzen oder Nebensätzen 
verwendet werden. 


Begründung: Die Partizipialkonstruktion erschwert die Textverständlich- 


keit (ebd.). 


Umsetzungsmuster: 
Vor KS: Der Satz beinhaltet eine Partizipialkonstruktion. 
Nach KS: aus der Partizipialkonstruktion einen Nebensatz bauen 


KS-Stelle 
Vor KS: alle Wörter, die das Nomen beschreiben, angefangen mit dem Ar- 
tikel, falls vorhanden. 
Nach KS: die konvertierten Wörter der Version vor KS (inkl. des Kommas 
innerhalb der KS-Stelle) 


Beispiele 
Speziell auf diese Lautsprecher abgestimmtes Zubehör erhalten Sie in unse- 


rem Webshop. 


Zubehör, das speziell auf diese Lautsprecher abgestimmt ist , erhalten Sie in 


unserem Webshop. 


Aufteilung der Testsätze: Der Datensatz besteht aus 24 verschiedenen Partizipi- 
alkonstruktionen, die unterschiedliche Längen haben und an unterschied- 
lichen Stellen in den Sätzen erscheinen. 


Im Folgenden werden die Ergebnisse der einzelnen Analysefaktoren präsen- 
tiert. 


5.4.6.2 Vergleich der Fehleranzahl mit und ohne die Verwendung von 
Partizipialkonstruktionen 


Die Fehleranzahl stieg um 26,4 % von 110 Fehlern im Falle der Verwendung von 
Partizipialkonstruktionen (M = ‚92 / SD = 1,089 / N = 120) auf 139 Fehler bei der 
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Vermeidung der Partizipialkonstruktionen (M = 1,16 / SD = 1,167 / N = 120) (Abbil- 
dung 5.71 und Abbildung 5.72). Der Mittelwert der Differenz (nach KS — vor KS) 
der Fehleranzahl pro Satz lag somit bei ,24 (SD = 1,277) mit einem 95%-Konfidenz- 
intervall zwischen einem Minimum von ,01 (SD = 1,087) und einem Maximum von 
‚47 (SD = 1,464) (Bootstrapping mit 1000 Stichproben). Die Differenz (nach KS — 
vor KS) der Fehleranzahl erwies sich als signifikant (z (N = 120) = — 1,980 / p = 
048). 


147 A 
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150 = 139 IER ‚72 158 
(ie ur 1,10 
100 | ei " 
0,97 
_ 084 
ST 
50 | S 
3 0,67 
ES 
0 0,44 
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I Anzahl der fehler f al 
innerh. KS vor KS 004 
Anzahl der Fehler a 
p I Anzahl der Fehler innerh. KS vor KS 
innerh. KS nach KS I Anzahl der Fehler innerh. KS nach KS 


Abbildung 5.71: „Partizipialkonst. verm“ Abbildung 5.72: „Partizipialkonst. 
- Fehlersumme vor vs. nach KS verm“ - Mittelwert der Fehleranzahl 
pro Satz vor vs. nach KS 


Eine genauere Untersuchung der Fehlertypen anhand von Beispielen ist unter 
§5.4.6.4. 


5.4.6.2.1 Vergleich der Fehleranzahl auf Regel- und MÜ-Systemebene 


Wie Abbildung 5.73 zeigt, stieg die Fehleranzahl bei allen Systemen außer dem 
SMÜ-System SDL nachdem die Sätze ohne Partizipialkonstruktionen formuliert 
wurden, allerdings war der Rückgang bei SDL insignifikant (Mdiff = — 0,125). 

Die einzige signifikante Veränderung nach der Anwendung der KS-Regel ent- 
stand bei dem HMU-System Systran Mdiff = ‚625; (z (N = 24) = — 2,156 / p = ,031). 
Die weiteren Anstiege waren nicht signifikant: Google Mdiff = ,167; Bing Mdiff 
= ,333; Lucy Mdiff = ,208. 
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Abbildung 5.73: „Partizipialkonst. verm“ - Summe der Fehleranzahl 
vor vs. nach KS bei den einzelnen MÜ-Systemen 


Wie Abbildung 5.73 zeigt, verzeichnete Google die niedrigste Fehleranzahl so- 
wohl vor als auch nach der Regelanwendung; gleichzeitig stieg die Fehleranzahl 
nach KS. Auf der anderen Seite konnte das SMÜ-System SDL in manchen Fällen 
von der Regelanwendung profitieren, wie Tabelle 5.79 demonstriert. 

Nachdem die Partizipialkonstruktion vermieden wurde, konnten der Wortstel- 
lungsfehler (GR10) und Auslassungsfehler (LX.3) in der KS-Stelle (in ,For the 
machine tools required‘) korrigiert werden, während das NMÜ-System Google 
Translate in der Lage war, den Satz mit und ohne Partizipialkonstruktion fehler- 
frei zu übersetzen. 


5.4.6.3 Aufteilung der Annotationsgruppen 


Wie Abbildung 5.74 zeigt, war die größte Annotationsgruppe bei dieser Regel die 
Gruppe FF; 42 % der Sätze wurden mit und ohne Partizipialkonstruktion falsch 
übersetzt. Unter §5.4.6.4 werden die persistenten Fehlertypen ins Visier genom- 
men. Die zweitgrößte Gruppe war RR, repräsentiert mit 28 %. Das zeigt, dass die 
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Tabelle 5.79: Beispiel 50 


Vor-KS Die für die Maschine benötigten Werkzeuge sind im Lieferum- 
fang nicht enthalten. 


SMÜSDL For the machine XXX tools required are not included in the deli- 
very. 

GNMÜ The tools required for the machine are not included in the deli- 
very. 


Nach-KS Die Werkzeuge, die für die Maschine benötigt werden, sind im 
Lieferumfang nicht enthalten. 


SMÜSDL The tools that are required for the machine are not included in 
the delivery. 

GNMÜ The tools required for the machine are not included in the deli- 
very. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


Systeme mehr als ein Viertel der Sätze mit und ohne Partizipialkonstruktion feh- 
lerfrei übersetzen konnten. Im nächsten Abschnitt werden die einzelnen Systeme 
auf Annotationsgruppenebene im Detail untersucht. 


Abbildung 5.74: „Partizipialkonst. verm“ - Aufteilung der Annotations- 
gruppen 


Bei 22 % der Sätze traten Fehler erst nach der Anwendung der Regel (Gruppe 
RF) auf, siehe Abbildung 5.74. Dies ist der höchste Prozentsatz der Gruppe RF un- 
ter allen analysierten Regeln. Wie oben erwähnt, war die Anwendung der Regel 
oft mit einer falschen Kommaplatzierung bei der Verwendung von Relativprono- 
men (‚which vs. ‚that‘) verbunden, siehe Tabelle 5.80. Schließlich beinhaltete die 
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MU in 9 % der Falle mindestens einen Fehler vor der Regelanwendung, der nach 
der Regelanwendung behoben wurde (Gruppe FR). 


5.4.6.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MU- 
Systemebene 


Mehr als die Hälfte der Sätze wurden bei drei MU-Systemen, dem RBMU-System 
Lucy (67 %), SMU-System SDL (54 %) und HMU-System Systran (54 %), mit und 
ohne Partizipialkonstruktion (d. h. sowohl vor als auch nach der Regelanwen- 
dung) falsch übersetzt (Annotationsgruppe FF). Bei den beiden HMU-Systemen 
Bing und Systran wurde jeweils ein Drittel der Übersetzungen (33 %) mit Parti- 
zipialkonstruktion (vor KS) richtig und ohne Partizipialkonstruktion (nach KS) 
falsch übersetzt (Annotationsgruppe RF), mehr zu den Fehlertypen unter §5.4.6.4. 
Somit hatten die verschiedenen älteren MÜ-Ansätze Schwierigkeiten mit der 
Übersetzung in den beiden Szenarien. 

Dies steht in Kontrast zum neuen Ansatz der NMÜ von Google, bei dem 71 % 
der Übersetzungen sowohl vor als auch nach der Anwendung der KS-Regel feh- 
lerfrei waren (Annotationsgruppe RR). 


5.4.6.4 Vergleich der Fehlertypen mit und ohne die Verwendung von 
Partizipialkonstruktionen 


Nach der Anwendung dieser Regel verändert sich die Anzahl zweier Fehlertypen 
deutlich, und zwar stieg die Fehleranzahl bei Fehlertyp OR.1 „Orthografie - Zei- 
chensetzung“ und sank bei Fehlertyp GR.10 „Grammatik - Falsche Wortstellung‘“. 
Beide Veränderungen erwiesen sich als signifikant p < ‚001 beim Fehlertyp OR.1 
bzw. p = ‚011 beim Fehlertyp GR.10 (N = 120). 

Um diese KS-Regel umzusetzen, wird die Partizipialkonstruktion aufgelöst, in- 
dem daraus einen Nebensatz gebildet wird. Die Übersetzung des Nebensatzes ins 
Englische erfordert eine Ermittlung des adäquaten Relativpronomens, d h. eine 
Unterscheidung zwischen Relativpronomen wie ‚which‘ und ‚that‘. Dieser Un- 
terscheidung bedarf in der Regel Kontextinformationen und nicht selten ist sie 
auch für den Humanübersetzer problematisch (vgl. Swan 1980: 527ff.).*? Da die 
Entscheidung über Relativpronomen wie ‚which‘ und ‚that‘ engverbunden mit 


“Man unterscheidet im Englischen zwischen restriktiven und nicht-restriktiven Relativsätzen: 
Im restriktiven Relativsatz wird die Bedeutung des Nomens, das beschrieben wird, begrenzt. 
Ohne den restriktiven Relativsatz ändert sich die Bedeutung des gesamten Satzes. Für restrik- 
tive Relativsätze verwendet man ‚that‘. Der nicht-restriktiver Relativsatz bietet lediglich zu- 
sätzliche Informationen über das Nomen und kann ohne Einfluss auf die Bedeutung entfernt 
werden. Für nicht-restriktive Relativsätze verwendet man ‚which‘. (vgl. Swan 1980: 527ff.) 
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Die oben angezeigten Prozentzahlen sind für alle Systeme, d. h. systemübergreifend, (N = 120) 
berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.75: „Partizipialkonst. verm“ - Aufteilung der Annotations- 
gruppen bei den einzelnen MÜ-Systemen 
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"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken reprasentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. „OR_1.v“ für ,OR_1: orthografischer Fehler Nr. 1“ und 
„v: vor KS“; ,OR_1.n“ ware entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario („n“). 
“ Signifikante Differenz vor vs. nach KS 

OR.1: Orthografie — Zeichensetzung 

OR.2: Orthografie - Großschreibung 

LX.3: Lexik - Wort ausgelassen 

LX.4: Lexik - Zusätzliches Wort eingefügt 

LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 

LX.6: Lexik - Konsistenzfehler 

GR.7: Grammatik - Falsche Wortart / Wortklasse 

GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 

GR.9: Grammatik - Kongruenzfehler (Agreement) 

GR.10: Grammatik - Falsche Wortstellung 

SM.11: Semantik - Verwechslung des Sinns 

SM.12: Semantik - Falsche Wahl 

SM.13: Semantik - Kollokationsfehler 


Abbildung 5.76: „Partizipialkonst. verm“ — Summe der Fehleranzahl 
der einzelnen Fehlertypen vor vs. nach KS 
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der Verwendung bzw. Nichtverwendung von Kommas ist (ebd.), stieg die Fre- 
quenz des Fehlertyps OR.1 „Orthografie — Zeichensetzung“ jedes Mal, wenn ein 
falsches Relativpronomen bei der Ubersetzung verwendet wurde, und zwar von 
5 auf 55 (1000 % / Mv = ‚04 / SDv = ‚239 / Mn = ,46 / SDn = ,660 / N = 120). In 
Tabelle 5.80 fehlte nach der Regelanwendung das Komma bevor ‚which‘. 


Tabelle 5.80: Beispiel 51 


Vor-KS Das Gerät verbindet sich mit der neu gewählten Netzwerkadres- 
se. 


GNMÜ The device connects to the newly selected network address. 


Nach-KS Das Gerät verbindet sich mit der Netzwerkadresse, die neu ge- 
wählt wird. 


GNMU The device connects to the network address, which is selected 
again. 


Die KS-Stelle ist fett dargestellt. Blau wird fiir die korrekten Tokens verwendet; Rot fiir die 
falschen Tokens. 


Auf der anderen Seite erschwerten Partizipialkonstruktionen, insbesondere 
lange Partizipialkonstruktionen, den MU-Systemen die Aufgabe, eine korrekte 
Wortstellung zu produzieren. Eine Auflösung der Partizipialkonstruktion (nach 
KS) konnte helfen, die Fehleranzahl vom Fehlertyp GR.10 „Grammatik - Falsche 
Wortstellung“ von 33 auf 12 (— 64 % / Mv = ‚28 / SDv = ‚579 / Mn = ‚10 / SDn = 
‚301/N = 120) zu reduzieren (siehe Tabelle 5.82). 


5.4.6.4.1 Vergleich der Fehlertypen auf Regel- und MÜ-Systemebene 


Eine genauere Untersuchung der Fehlertypen bei den verschiedenen MÜ-Syste- 
men zeigt, dass der allgemein signifikante Unterschied in der Fehleranzahl des 
Fehlertyps OR 1 „Orthografie - Zeichensetzung“ bei den Systemen Bing, SDL und 
Systran und des Fehlertyps GR.10 „Grammatik - Falsche Wortstellung“ nur bei 
dem System SDL zu beobachten war (Abbildung 5.77). Bei den Systemen Goog- 
le und Lucy gab es keinen bestimmten Fehlertyp, dessen Fehleranzahl nach der 
Regelanwendung eine signifikante Änderung aufwies. Darüber hinaus fiel die 
Fehleranzahl aller Fehlertypen bei Google sowohl vor als auch nach der Regel- 
anwendung sehr gering aus. 

Der Fehlertyp OR.1 stieg deutlich bei Bing von 1 auf 11 (+ 1000 %), bei SDL von 
1 auf 8 (+ 700 %) und bei Systran von 2 auf 28 (+ 1300 %). Der Fehlertyp GR.10 
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“Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 


folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 


**Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 
Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen vorkamen: In dieser 
Grafik kamen die Fehlertypen 5 und 6 bei gar keinem MÜ-System vor. Zudem kamen die 
Fehlertypen 2 und 7 nur einmal jeweils bei 2-3 MÜ-Systemen in vereinzelten Fällen vor. 


Abbildung 5.77: „Partizipialkonst. verm“ — Summe der Fehleranzahl 


der Fehlertypen vor vs. nach KS bei den einzelnen MÜ-Systemen 
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sank bei SDL von 16 auf 5 (— 68,8 %). Die Differenz in der Fehleranzahl der beiden 
Typen OR.1 und GR.10 erwies sich in den genannten Systemen folgendermaßen 
als signifikant (Tabelle 5.81). 


Tabelle 5.81: „Partizipialkonst. verm“ - Fehlertypen mit signifikanter 
Veränderung nach KS 


N Mittelwert Standard- Signifikanz 
abweichung (McNemar-Test) 


OR.1 „Zeichensetzung“ 

Bing 24 vor KS = ‚04 vor KS = ‚204 p = ‚002 
nach KS = 46 nach KS = ‚509 

SDL 24 vor KS = ‚04 vor KS = ‚204 p = ‚016 
nach KS = 33 ~— nach KS = ‚482 

Systran 24 vor KS = ,08 vor KS = ,408 p < ‚001 
nach KS = 1,17 nach KS = ,702 


GR.10 „Falsche Wortstellung“ 

SDL 24 vor KS = ,67 vor KS = ‚761 p = ‚016 
nach KS = 21 nach KS = ‚415 

Systran 24 vor KS = ,33 vor KS = ,702 p = ‚037 
nach KS = 38 nach KS = ‚576 


Bei dem SMÜ-System SDL und dem HMÜ-System Systran wurde der Fehler- 
typ GR.10 „Grammatik - Falsche Wortstellung“ nach dem Zerlegen der Partizipi- 
alkonstruktion (nach KS) behoben. Dieses Ergebnis ist in SMÜ-Systemen im Falle 
von Partizipialkonstruktionen, die in den Trainingsdaten nicht (häufig) vorkom- 
men, zu erwarten, da das Zerlegen solcher Partizipialkonstruktionen das SMÜ- 
System dabei unterstützt, eine korrekte Wortstellung zu produzieren. 

Tabelle 5.82 zeigt, wie das Vermeiden der Partizipialkonstruktion SDL u. a. 
dabei unterstützte, den Wortstellungsfehler zu korrigieren. 


5.4.6.5 Vergleich der MÜ-Qualität mit und ohne die Verwendung von 
Partizipialkonstruktionen sowie die Korrelation zwischen den 
Fehlertypen und der Qualität 


Nachdem die Partizipialkonstruktionen vermieden wurden (nach KS), sanken so- 
wohl die Stil- als auch die Inhaltsqualitat.*? Auf den ersten Blick erkennt man in 


®Definitionen der Qualität unter $4.5.5.1. 
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Tabelle 5.82: Beispiel 52 


Vor-KS Durch Eingabe der mit einem roten Sternchen gekennzeichne- 
ten Parameter erfolgt die minimale Konfigurierung. 


SMU SDL By entering the marked with a red asterisk parameter, the mini- 
mum configuration is performed. 


Nach-KS Durch Eingabe der Parameter, die mit einem roten Sternchen 
gekennzeichnet sind, erfolgt die minimale Konfigurierung. 


SMU SDL By entering the parameters that are marked with a red asterisk, 
the minimum configuration is performed. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Abbildung 5.79, dass der Einfluss auf die Stilqualität im Vergleich zur Inhaltsqua- 
lität größer ausfiel. Die Stilqualität sank um 7,8 % (Mv = 3,97 / SDv = ‚658 / Mn 
= 3,66 / SDn = ‚535 / N = 98). Die Inhaltsqualität sank um 1,7 % (Mv = 4,23 / 
SDv = ‚789 / Mn = 4,16 / SDn = ‚726 / N = 98) (Abbildung 5.78). Der Mittelwert 
der Differenz (nach KS — vor KS) der vergebenen Qualitätspunkte pro Satz lag 
für die Stilqualität bei — ‚312 (SD = ,575) mit einem 95%-Konfidenzintervall zwi- 
schen einem Minimum von — ‚428 und einem Maximum von — ‚196 und für die 
Inhaltsqualität bei — ‚066 (SD = ,714) mit einem 95%-Konfidenzintervall zwischen 
einem Minimum von — ‚210 und einem Maximum von ‚078 (Bootstrapping mit 
1000 Stichproben) (Abbildung 5.79). Nur die Differenz (nach KS — vor KS) in der 
Stilqualität erwies sich als hochsignifikant (z (N = 98) = — 4,997 / p < ,001). Bei 
der Inhaltsqualität war die Differenz insignifikant (z (N = 98) = — ‚597 / p = ,550). 

Tabelle 5.83 zeigt einen Satz, der zwar mit und ohne Partizipialkonstruktion 
fehlerfrei übersetzt wurde, allerdings sanken sowohl die Stilqualität (— ‚75 Punkte 
auf der Likert-Skala) als auch die Inhaltsqualität (— ‚25 Punkte auf der Likert- 
Skala), nachdem die Partizipialkonstruktion vermieden wurde (nach KS). 

Eine genaue Betrachtung der in der Humanevaluation identifizierten Quali- 
tätskriterien (Abbildung 5.80) verrät, dass der Rückgang bei der Stilqualität über- 
wiegend an der unklaren Darstellung (SQ1) sowie der unnatürlichen Formulie- 
rung (SQ3) und bei der Inhaltsqualität insbesondere an der beeinträchtigen Ver- 
ständlichkeit (CQ2) lag. 

In Tabelle 5.83 fanden die Bewerter die MÜ vor der Anwendung der KS-Regel 
(mit Partizipialkonstruktion) prägnanter und idiomatischer. In einem weiteren 
Beispiel, in dem die MÜ mit und ohne Partizipialkonstruktion Fehler beinhaltete, 
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I Differenz SQ (nach KS - vor KS) 
I Differenz CQ (nach KS - vor KS) 
T Differenz Q (nach KS - vor KS) 


95% Cl 


95% Cl 


se Mittelwert SO vor KS 
Mittelwert SQ nach KS 
« Mittelwert CO vor KS 
Mittelwert CQ nach KS 
«> Mittelwert Q vor KS 
WW Mitelwert Q nach KS 


Abbildung 5.78: „Partizipialkonst. Abbildung 5.79: „Partizipialkonst. 
verm“ - Mittelwerte der Qualität vor verm“ - Mittelwert der Qualitatsdiffe- 
und nach KS renzen 


Tabelle 5.83: Beispiel 53 


Vor-KS Die für Ihren Flug erlaubte Freigepäckmenge ist auf Ihrem 
Flugschein angegeben. 


HMÜ Systran The free luggage quantity permitted for your flight is provi- 
ded on your ticket. 


Nach-KS Die Freigepäckmenge, die für Ihren Flug erlaubt ist, ist auf 
Ihrem Flugschein angegeben. 


HMU Systran The free luggage quantity, which is permitted for your flight, 
is provided on your ticket. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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600 p + 19% 567 


500 H 475 
400 F 
300 F + 19% 
+ 2% 240 
203 207 202 
200 F + 149% 
127 — 1% 

100 l 87 86 

51 | Í 

oi 


SQ1_v SOL pn SQ2_v SQ2_n SQ3_v SQ3_n CQ1_v COl_n CQ2_v CQ2_n 
SQ1: Ü ist nicht korrekt bzw. nicht klar dargestellt, d. h. nicht orthografisch. 
SQ2: Ü ist nicht ideal für die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: Ü klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. CQ2: U ist nicht leicht zu 
verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.80: „Partizipialkonst. verm“ - Vergleich der Qualitätskri- 
terien 


sanken die Stilqualität (— ‚63 Punkte auf der Likert-Skala) und die Inhaltsqualität 
(— ,50 Punkte auf der Likert-Skala) nach der Regelanwendung (Tabelle 5.84). 

Die Wortstellungsfehler (GR.10) wurden nach der Regelanwendung nicht be- 
hoben. Zudem kamen zwei neue Fehler hinzu: der orthografische Fehler OR.1 
(fehlendes Komma) und der lexikalische Fehler LX.3 (Auslassen des Relativpro- 
nomens , that‘). Entsprechend wurden die Verständlichkeit und Idiomatik der MU 
beeinträchtigt. 


5.4.6.6 Korrelation zwischen den Fehlertypen und der Qualität 


Auf Basis der Fehlerannotation zusammen mit der Humanevaluation gibt uns ei- 
ne Spearman-Korrelationsanalyse Aufschluss, wie die Veränderung bei der Feh- 
leranzahl jedes Fehlertyps (Anz. nach KS - Anz. vor KS) mit den Qualitätsunter- 
schieden (Q. nach KS - Q. vor KS) zusammenhängt. Mithilfe des Spearman-Tests 
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Tabelle 5.84: Beispiel 54 


Vor-KS Die fiir Ihren Flug erlaubte Freigepackmenge ist auf Ihrem Flug- 
schein angegeben. 


SMU SDL The for your flight allowed free baggage allowance is provided on 
your ticket. 


Nach-KS Die Freigepäckmenge, die für Ihren Flug erlaubt ist, ist auf Ih- 
rem Flugschein angegeben. 


SMU SDL The free baggage allowanceXXX for your flight XXX is allowed, 
is provided on your ticket. 


Die KS-Stelle ist fett dargestellt. Blau wird fiir die korrekten Tokens verwendet; Rot fiir die 
falschen Tokens; XXX fiir ein fehlendes Wort oder Komma. 


erwies sich ein signifikanter mittlerer negativer Zusammenhang zwischen der 
Differenz im Fehlertyp LX.4 und der Differenz in der Stilqualität. Außerdem er- 
wies sich ein signifikanter schwacher negativer Zusammenhang zwischen der 
Differenz in den Fehlertypen OR.1, LX.3, GR.9, GR.10 und SM.11 einzeln und der 
Differenz in der Stilqualität. (Tabelle 5.85) 

Bezüglich der Inhaltsqualität erwies sich ein signifikanter mittlerer negativer 
Zusammenhang zwischen der Differenz in den Fehlertypen LX.3, LX.4 und GR.10 
einzeln und der Differenz in der Inhaltsqualität sowie ein signifikanter schwacher 
negativer Zusammenhang zwischen der Differenz in den Fehlertypen GR.9 und 
SM.11 einzeln und der Differenz in der Inhaltsqualität. (Tabelle 5.85) 

Weitere Korrelationen zwischen anderen einzelnen Fehlertypen und der Qua- 
lität konnten nicht erwiesen werden. 

Diese signifikanten negativen Korrelationen deuten darauf hin, dass sobald 
die Fehleranzahl der genannten Fehlertypen sank, die Qualität zunahm, und um- 
gekehrt. In Tabelle 5.86 wurden der lexikalische Fehler LX.4 „Zusätzliches Wort 
eingefügt“ (in ‚coordinated‘) und der Wortstellungsfehler GR.10 (in ‚accessories‘) 
eliminiert, daraufhin stieg die Qualität deutlich. 

Die Stilqualität verbesserte sich um 1,25 Punkte und die Inhaltsqualität um 1,75 
Punkte auf der Likert-Skala nach der Formulierung des Satzes ohne Partizipial- 
konstruktion (nach KS). 
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Tabelle 5.85: „Partizipialkonst. verm“ - Korrelation zwischen den Feh- 
lertypen und der Qualität 


N D p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl der OR.1 „Zeichensetzung“ 97 ‚006 —,278 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 97 ‚004 — ‚293 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 97 ‚001 — ‚334 
fügt“ 
Diff. der Anzahl der GR.9 „Kongruenzfehler“ 97 038 —,211 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 97 ‚010 - ‚260 
Diff. der Anzahl der SM.11 „Verwechslung des Sinns“ 97 ‚009  - ‚265 
Differenz CQ (nach KS — vor KS) 
Diff. der Anzahl der OR.1 „Zeichensetzung“ 97,395 — ,087 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 97 <,001 —,462 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 97 ‚001 —,338 
fügt“ 
Diff. der Anzahl der GR.9 „Kongruenzfehler“ 97 ‚014 — ‚250 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 97 ‚002 —,307 
Diff. der Anzahl der SM.11 „Verwechslung des Sinns“ 97 ‚0223 —,230 
Differenz allg. Q (nach KS — vor KS) 
Diff. der Anzahl der OR.1 „Zeichensetzung“ 97 ‚037 — ‚212 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 97 <,001 - ,413 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 97 <,001 - ‚350 
fügt“ 
Diff. der Anzahl der GR.9 „Kongruenzfehler“ 97 ‚011 — ‚257 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 97 ‚001 —,324 
Diff. der Anzahl der SM.11 „Verwechslung des Sinns“ 97 010 - ‚260 


*In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitätsvariable signifikant korrelieren. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
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Tabelle 5.86: Beispiel 55 


Vor-KS Speziell auf diese Lautsprecher abgestimmtes Zubehör erhalten 
Sie in unserem Webshop. 


SMÜSDL Designed specifically for these speakers coordinated accessories 
are available in our webshop. 


Nach-KS Zubehör, das speziell auf diese Lautsprecher abgestimmt ist, er- 
halten Sie in unserem Webshop. 


SMÜSDL Accessories that are specially adapted to these speakers are 
available in our webshop. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.6.6.1 Vergleich der Qualität auf Regel- und MÜ-Systemebene 


Wie Abbildung 5.81 zeigt, sank die Stilqualität signifikant bei dem HMÜ-System 
Bing (SQ — 13,9 %), dem MNU-System Google Translate (SQ — 9,4 %) sowie bei 
dem RBMU-System Lucy (SQ — 6,2 %). Bei dem SMÜ-System SDL und dem HMÜ- 
System Systran sank ebenfalls die Stilqualität nach der Regelanwendung, aller- 
dings war der Rückgang nicht groß und entsprechend insignifikant. 

Auf der anderen Seite blieb die Inhaltsqualität vor und nach der Regelanwen- 
dung bei allen Systemen bis auf das HMU-System Systran ohne große Verände- 
rung: Bei dem HMÜ-System Systran stieg die Inhaltsqualität signifikant um 6,2 %. 
Gleichzeitig sank die Inhaltsqualität bei dem anderen HMÜ-System Bing mit ei- 
nem insignifikanten Prozentsatz von — 7,9 %. Bei den anderen Systemen war die 
Veränderung minimal und entsprechend insignifikant. 

Tabelle 5.87 zeigt, dass der Rückgang in der Stilqualität bei drei Systemen, näm- 
lich Bing, Google und Lucy, signifikant war. Bei Bing und Google waren die größ- 
ten Annotationsgruppen RR und RF, d. h. dass die Mehrheit der Sätze vor der 
Regelanwendung fehlerfrei übersetzt wurde (siehe §5.4.6.3). Eine korrekt über- 
setzte Partizipialkonstruktion zeigte sich in der Analyse der Qualitätskriterien 
als idiomatischer bzw. stilistischer als eine korrekt übersetzte aufgelöste Parti- 
zipialkonstruktion. Dies erklärt den signifikanten Rückgang der Stilqualität bei 
Bing und Google. 

Bei Lucy wurde die Mehrheit der Sätze vor und nach der Regelanwendung 
falsch übersetzt (Gruppe FF 67 %, siehe Abbildung 5.75). Die Humanevaluation 
zeigte, dass knapp 65 % (9 von 14 Sätzen) der Sätze der FF Gruppe bei Lucy nach 
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Regel- und Systemebene - Vergleich der Mittelwerte vor-KS vs. nach-KS 


Stilqualität - Inhaltsqualität 


KS Reget Partiziptatkonstruktionen vermeiden 


Abbildung 5.81: „Partizipialkonst. verm“ - Mittelwerte der Qualität vor 
vs. nach KS bei den einzelnen MÜ-Systemen 


Tabelle 5.87: „Partizipialkonst. verm“ - Signifikanz der Qualitätsverän- 
derung bei den einzelnen MÜ-Systemen 


Differenz SQ Differenz CQ Differenz allg. Q 
(nach KS — vor KS) (nachKS-vorKS) (nach KS - vor KS) 
N p z N p z N p D 
Bing 18 ‚008 —3,004 18 ,088 —1,707 18 009 — 2,616 
Google 23 ‚001 —3,261 23 ,094 —1,674 23 001 — 3,436 
Lucy 21 ‚006 —2,734 21 ,830 —,214 21 ,058 - 1,896 
SDL 18 ,5322 —,641 18 4711 — ,371 18  ,868 — ,166 
Systran 17 124 -—1,538 17 ‚339 —2,064 17 ,812 — ,238 


p: Signifikanz 


z: Teststatistik 


nicht signifikant (p > 0,05) 
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der Regelanwendung stilistisch schlechter bewertet wurden. In Tabelle 5.88 sank 
die Inhaltsqualität (— ‚63 Punkte auf der Likert-Skala), während die Inhaltsquali- 
tät anstieg (+ 0,38 Punkte auf der Likert-Skala) - nach der Regelanwendung. 


Tabelle 5.88: Beispiel 56 


Vor-KS Die in den Bedienungsanweisungen der eingebauten Geräte 
vorgeschriebenen Gebrauchsbedingungen miissen strikt ein- 
gehalten werden. 


RBMU Lucy The use conditions stipulated in the service instructions of the 
built-in devices must be strictly adhered to. 


Nach-KS Die Gebrauchsbedingungen, die in den Bedienungsanwei- 
sungen der eingebauten Geräte vorgeschrieben sind, müssen 
strikt eingehalten werden. 


RBMÜLucy The use conditions which are stipulated in the service instruc- 
tions of the built-in devices must be strictly adhered to. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


5.4.6.6.2 Korrelation zwischen den Fehlertypen und der Qualität auf Regel- und 
MÜ-Systemebene 


Anhand der Spearman-Korrelationsanalyse erwies sich bei dem HMÜ-System 
Bing ein stark signifikanter negativer Zusammenhang zwischen Fehlertyp GR.10 
„Wortstellungsfehler“ und der Stilqualität sowie ein signifikanter mittlerer nega- 
tiver Zusammenhang zwischen Fehlertyp SM.11 „Verwechslung des Sinns“ und 
der Inhaltsqualität (Tabelle 5.89). Bei dem HMU-System Systran erwies sich nur 
eine signifikante starke negative Korrelation zwischen Fehlertyp LX.3 „Wort aus- 
gelassen“ und der Inhaltsqualität (Tabelle 5.89). 

Bei dem SMÜ-System SDL gab es schließlich mehrere signifikante Korrelatio- 
nen: Bei der Stilqualität erwies sich ein signifikanter starker negativer Zusam- 
menhang zwischen Fehlertyp LX.3, LX.4 und GR.10 einzeln und der Stilqualität. 
Bei der Inhaltsqualität erwies sich ein signifikanter starker negativer Zusammen- 
hang zwischen Fehlertyp OR.1, LX.3, LX.4 und GR.10 einzeln und der Inhaltsqua- 
lität (siehe Tabelle 5.89 und Tabelle 5.86). 
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Tabelle 5.89: „Partizipialkonst. verm“ - Korrelationen zwischen den 
Fehlertypen und der Qualität bei den einzelnen MÜ-Systemen 


Bing SDL Systran 

N p p N p p N p p 
Differenz der Anzahl SQ (nach KS — vor KS) 
OR.1 Zeichen" 18 ‚052 — ‚464 
LX.3 „W. fehlt“ 18 ‚002 — ‚684 17 All) — ,281 
LX.4 ,W. extra“ 18 011 — ,586 
GR.9 „Kongru.“ 18 ‚076 — ‚429 
GR.10 „Wortst.“ 18 ‚028 — ‚318 18 ‚008 — ,604 
SM.11 „Sinn“ 18 ‚091 — ‚410 


Differenz der Anzahl CQ (nach KS — vor KS) 


OR.1 „Zeichen“ 18 ‚003 — ‚656 

LX.3 ,,W. fehlt“ 18 <,001 — ,754 17 ‚024 — ‚545 
LX.4 ,W. extra“ 18 ‚017 — 555 

GR.9 „Kongru.“ 18 ‚080 — ‚424 

GR.10 „Wortst.“ 18 ‚165 —,076 18 ‚005 = 029) 

SM.11 „Sinn“ 18 ‚039 — ‚490 


Differenz der Anzahl Q (nach KS — vor KS) 


OR.1 Zeichen" 18 ,007 — 608 

LX.3 „W. fehlt“ 18 < ¿001 = ,758 17 ‚047 — ‚487 
LX.4 ,W. extra“ 18 ‚000 - ,595 

GR.9 „Kongru.“ 18 ‚0339 —,490 

GR.10 „Wortst.“ 18 ‚160 — ,346 18 ‚002 — ‚689 

SM.11 „Sinn“ 18 ‚011 — ,581 


*In der Tabelle werden nur die Fehlertypen dargestellt, die bei mind. einer Qualitätsvariable eine 
signifikante Korrelation aufweisen. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
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5.4.6.7 Vergleich der MÜ-Qualität mit und ohne die Verwendung von 
Partizipialkonstruktionen auf Annotationsgruppenebene 


Die Qualitatsveranderung** der MU variierte nach Vermeidung der Partizipial- 
konstruktion (nach KS) in den verschiedenen Annotationsgruppen (Abbildung 
5.82). 


Mittelwert SO vor KS 


Annotationsgruppenebene - Vergleich der Mittelwerte vor-KS vs. nach-KS Z Melo sQnech 
I Mittelwert CO vor K 
Stilqualität - Inhaltsqualität - Allgemeine Qualität 


KS-Regek: Partiziplalkonstruktionen vermeiden 


S X Mittelwert CO nach KS 
KS X mittetwert Q vor KS 
S F hitetwert Q nach KS 


34 


T T 
FF FR RF 
Annotationsgruppe 


Abbildung 5.82: „Partizipialkonst. verm“ - Mittelwerte der Qualität vor 
vs. nach KS auf Annotationsgruppenebene 


Die Gruppe FF (Übersetzung vor und nach KS falsch) hatte den größten An- 
teil von 42 % der analysierten Sätze (siehe §5.4.6.3). In dieser Gruppe stieg zwar 
die Inhaltsqualität leicht, allerdings sank die Stilqualität signifikant (N = 37) = 
— 2,623 / p = ,008), siehe Tabelle 5.91. Die Bewerter fanden in vielen Fällen die 
MÜ bei der Verwendung der Partizipialkonstruktion prägnanter. Bei Tabelle 5.52 
sank die Stilqualität um 0,50 Punkte auf der Likert-Skala, während die Inhalts- 
qualität unverändert blieb. Neben der Bemängelung des Kongruenzfehlers beim 
Verb ‚is’ kommentierte ein Bewerter „I would also take out ‚that are‘ for the sake 
of conciseness. (‘Accessories specifically tailored to these speakers ...)“ 

Erwartungsgemäß stiegen die Stil- und Inhaltsqualität in der Gruppe FR (MU 
falsch vor KS; richtig nach KS) und sanken in der Gruppe RF (MÜ richtig vor 
KS; falsch nach KS). In der Gruppe RF sanken die Stil- und Inhaltsqualität signi- 
fikant bei der Formulierung des Satzes ohne Partizipialkonstruktion (nach KS) 


“Definitionen der Qualität unter $4.5.5.1. 


384 
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Tabelle 5.90: Beispiel 57 


Vor-KS Speziell auf diese Lautsprecher abgestimmtes Zubehör erhal- 
ten Sie in unserem Webshop. 


HMU Bing Accessories tailored to these speakers specifically are available 
in our webshop. 


Nach-KS Zubehör, das speziell auf diese Lautsprecher abgestimmt ist, 
erhalten Sie in unserem Webshop. 


HMÜBing Accessories that is specifically tailored to these speakers are 
available in our webshop. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


aufgrund der aufgetretenen Fehler im Vergleich zu der fehlerfreien Übersetzung 
der Partizipialkonstruktion (vor KS), siehe Tabelle 5.91. In der Gruppe FR war der 
Anstieg der Stilqualität bei der Formulierung des Satzes ohne Partizipialkonstruk- 
tion (nach KS) insignifikant, während der Anstieg der Inhaltsqualität signifikant 
war, siehe Tabelle 5.91. Tabelle 5.92 veranschaulicht, dass die Stilqualität sank 
(— ‚75 Punkte auf der Likert-Skala), obwohl die Inhaltsqualität durch den korri- 
gierten Fehler stieg (+ 0,38 Punkte auf der Likert-Skala), Durch den behobenen 
lexikalischen Fehler in ‚fristgerecht‘ (LX.3: Wort wurde vor KS ausgelassen) stieg 
die Genauigkeit der MÜ nach KS. Zudem kritisierte ein Bewerter den Stil nach 
KS und beschrieb ihn als „wordy“. 

In der Gruppe RR (Übersetzung mit und ohne Passiversatz richtig) sanken die 
Stil- und Inhaltsqualität signifikant (z (N = 28) = — 3,540 / p < ,001) bzw. (z (N 
= 28) = 2,322 / p = ,020), siehe Tabelle 5.91. Eine richtige Übersetzung der Parti- 
zipialkonstruktion (vor KS) fanden die Bewerter prägnanter und idiomatisch. In 
Tabelle 5.93 kommentierte ein Bewerter die MÜ nach der Regalanwendung wie 
folgt: „which go beyond this’ too closely mimics the structure of the source text. 
I suggest ‚exceeding this‘ instead“. Die Qualitätsdifferenz in diesem Beispiel be- 
trug bei der Stilqualität — ‚50 Punkte auf der Likert-Skala bzw. — ‚38 Punkte auf 
der Likert-Skala bei der Inhaltsqualität. 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Tabelle 5.91: „Partizipialkonst. verm“ - Signifikanz der Qualitätsverän- 


derung auf Annotationsgruppenebene 


N p Z 
(Signifikanz) (Teststatistik) 
Annotationsgruppe FF 
Differenz SQ (nach KS — vor KS) 37 ‚008 — 2,638 
Differenz CQ (nach KS — vor KS) 37 „411 — ,823 
Differenz allg. Q (nach KS — vor KS) 37 ,507 — ,664 
Annotationsgruppe FR 
Differenz SQ (nach KS — vor KS) 9 ,107 — 1,612 
Differenz CQ (nach KS — vor KS) 9 ‚021 — 2,314 
Differenz allg. Q (nach KS — vor KS) 9 ‚050 — 1,958 
Annotationsgruppe RF 
Differenz SQ (nach KS — vor KS) 23 < ,001 — 4,114 
Differenz CQ (nach KS — vor KS) 23 ‚012 — 2,526 
Differenz allg. Q (nach KS — vor KS) 23 < ,001 — 4,021 
Annotationsgruppe RR 
Differenz SQ (nach KS — vor KS) 28 < ,001 — 3,540 
Differenz CQ (nach KS — vor KS) 28 ,020 — 2,322 
Differenz allg. Q (nach KS — vor KS) 28 < ,001 — 3,618 


5.4.6.8 Vergleich der AEM-Scores mit und ohne die Verwendung von 
Partizipialkonstruktionen sowie die Korrelation zwischen den 


AEM-Scores und der Qualitat 


Der Vergleich der AEM-Scores mit und ohne die Verwendung von Partizipialkon- 
struktionen zeigte sowohl mit TERbase als auch mit hLEPOR eine Verschlechte- 


rung der AEM-Scores (Abbildung 5.83). 


Der Mittelwert der Differenz (nach KS — vor KS) im AEM-Score pro Satz lag 
fiir TERbase bei ,164 (SD = ,214) und fiir die hLEPOR bei ,063 (SD = ,130) mit 
einem 95%-Konfidenzintervall (Bootstrapping mit 1000 Stichproben) (Abbildung 
5.83). Die Differenzen (nach KS — vor KS) in TERbase und hLEPOR erwiesen sich 
als signifikant (z (N = 98) = — 6,238 / p < ,001) bzw. (z (N = 98) = — 4,366 / p < ,001). 
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Vor-KS 


GNMU 


Nach-KS 


GNMU 


Tabelle 5.92: Beispiel 58 


Bei fristgerecht erfolgten berechtigten Mangelriigen ist der Lie- 
ferer zu einer kostenlosen Ersatzlieferung verpflichtet. 


In the case of XXX justified complaints, the supplier shall deliver 
replacement goods free of charge. 


Bei berechtigten Mangelriigen, die fristgerecht erfolgen, ist der 
Lieferer zu einer kostenlosen Ersatzlieferung verpflichtet. 


In the case of justified complaints which are made within the time 
limit, the supplier shall deliver replacement goods free of charge. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX fiir ein fehlendes Wort oder Komma. 


Vor-KS 


HMU Bing 


Tabelle 5.93: Beispiel 59 
Alle darüberhinausgehenden Ansprüche sind ausdrücklich von 
der Garantie ausgenommen. 


All claims that go beyond are expressly excluded from the gua- 
rantee. 


Nach-KS 


HMU Bing 


Alle Anspriiche, die dariiber hinausgehen, sind ausdriicklich 
von der Garantie ausgenommen. 


All claims which go beyond this are expressly excluded from the 
guarantee. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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O 
S 0.0627 
ep -0,0889 
-0'0366 
0,1640 
-0,2070 
-01210 


Differenz TERbase (nach KS - vor KS) 
am Differenz hLEPOR (nach KS - vor KS) 


Differenz = AEM-Score nach KS minus AEM-Score vor KS 


Abbildung 5.83: „Partizipialkonst. verm“ - Mittelwert der Differenz der 
AEM-Scores 


Dieses Ergebnis weist darauf hin, dass - nach der Auflösung der Partizipialkon- 
struktion (nach KS) - mehr Edits erforderlich waren. 


5.4.6.8.1 Korrelation zwischen den Differenzen in den AEM-Scores und der Qua- 
lität 

Mithilfe des Spearman-Korrelationstests erwies sich ein signifikanter mittlerer 

positiver Zusammenhang zwischen den Differenzen der AEM-Scores von TER- 

base und hLEPOR und der Differenz der allgemeinen Qualität (Tabelle 5.94). 
Diesem Ergebnis zufolge standen die Qualitätsveränderungen der Humaneva- 

luation und der automatischen Evaluation in relativem Einklang, denn der Qua- 

litätsrückgang ging mit dem Rückgang der AEM-Scores einher. 


5.4.6.9 Analyse der fünften Regel - Validierung der Hypothesen 


Um die vorgestellten Ergebnisse auf die Forschungsfragen der Studie zurück- 
zuführen, listet dieser Abschnitt die zugrunde liegenden Hypothesen der For- 
schungsfragen zusammen mit einer Zusammenfassung der Ergebnisse der fünf- 
ten analysierten Regel in tabellarischer Form auf. Für einen schnelleren Überblick 
steht (+) für eine Verbesserung bzw. einen Anstieg z. B. im Sinne eines Quali- 
tätsanstiegs, verbesserter AEM-Scores oder eines Anstiegs der Fehleranzahl; (—) 
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Tabelle 5.94: „Partizipialkonst. verm“ - Korrelation zwischen den Dif- 
ferenzen der AEM-Scores und den Qualitatsdifferenzen 


N Signifikanz Korrelations- Stärke 

(p) koeffizient der 

(p) Korrelation 

Korrelation zw. 97 < ,001 ‚430 mittlerer 
Differenz in der allg. Zusammen- 
Qualität und Differenz hang 


des TERbase-Scores 
(nach KS — vor KS) 


Korrelation zw. 97 < ,001 ‚426 mittlerer 
Differenz in der allg. Zusammen- 
Qualität und Differenz hang 


des hLEPOR-Scores 
(nach KS — vor KS) 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


steht für einen Rückgang; die grüne Farbe symbolisiert eine signifikante Veran- 


derung; neg steht für eine negative Korrelation und pos für eine positive Korrelati- 


on; <<>> steht für eine starke Korrelation und <> für eine mittlere Korrelation.*” 


Regel 5: Partizipialkonstruktionen vermeiden 


Erster Analysefaktor: Vergleich der Fehleranzahl mit vs. ohne Partizipialkon- 
struktion 


Fragestellung: Gibt es einen Unterschied in der Fehleranzahl nach der Anwen- 
dung der KS-Regel im Vergleich zu vor der Anwendung? 


HO - Es gibt keinen Unterschied in der Fehleranzahl vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in der Fehleranzahl vor vs. nach der Anwendung 
der KS-Regel. 


#Schwache Korrelationen werden in dieser Übersicht nicht angezeigt. 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Resultat 


Auf Regelebene: 

HO wurde abgelehnt und somit H1 bestätigt. Anz.F. (+) 
Die Fehleranzahl stieg signifikant, nachdem die Partizipial- 
konstruktion vermieden wurde. 

Auf Regel- und MÜ-Systemebene: 

Bei Systran stieg die Fehleranzahl signifikant, nachdem die Sy (+) 
Partizipialkonstruktion vermieden wurde. 


Die Veränderungen der Fehleranzahl bei allen anderen Sy- Bi (+) Go (+) 
stemen waren nicht signifikant. Lu (+) SD (-) 


Zweiter Analysefaktor 


Abbildung 5.84: Aufteilung der Annotationsgruppen auf Regelebene 


157 


hi, 
FR RF RR 


li Bing lı Google i Lucy lısorlı Systran 


Abbildung 5.85: Aufteilung der Annotationsgruppen auf Regel- und 
MÜ-Systemebene 
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5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


Dritter Analysefaktor: Vergleich der Fehlertypen mit vs. ohne Partizipialkon- 
struktion 


Fragestellung: Beinhaltet die MU bestimmte Fehlertypen vor bzw. nach der An- 
wendung der KS-Regel? 


HO - Es gibt keinen Unterschied in der Häufigkeit der einzelnen Fehlertypen 
vor vs. nach der Anwendung der KS-Regel. 


H1- Es gibt einen Unterschied in der Häufigkeit der einzelnen Fehlertypen vor 
vs. nach der Anwendung der KS-Regel. 


Auf Regelebene: 

H1 wurde für zwei Fehlertypen bestätigt. OR.1(+) 
Die Fehleranzahl von OR.1 „Zeichensetzung“ stieg signifikant, GR.10 (—) 
nachdem die Partizipialkonstruktion vermieden wurde. 

Die Fehleranzahl von GR.10 „Wortstellungsfehler“ sank signifi- 

kant, nachdem die Partizipialkonstruktion vermieden wurde. 

Auf Regel- und MÜ-Systemebene: 

Bei Bing, SDL und Systran stieg die Fehleranzahl von OR.1 „Zei- OR.1 (+): 
chensetzung“ signifikant, nachdem die Partizipialkonstruktion Bi SD Sy 
vermieden wurde. 


Bei SDL und Systran sank die Fehleranzahl von GR.10 „Wortstel- GR.10 (—): 
lungsfehler“ signifikant (nach KS). SD Sy 


Alle weiteren Veränderungen waren nicht signifikant. 


Vierter Analysefaktor: Vergleich der MU-Qualitat mit vs. ohne Partizipialkon- 
struktion 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität der MÜ 
der KS-Stelle nach der Anwendung der KS-Regel im Vergleich zu vor der 
Anwendung? 


HO - Es gibt keinen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


H1- Es gibt einen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Resultat 


Auf Regelebene: 
Für die Stilqualität wurde H0 abgelehnt und somit H1 bestätigt. SQ (-) 


Für die Inhaltsqualität wurde HO nicht abgelehnt und somit CQ (-) 
konnte H1 nicht bestätigt werden. 

Auf Regel- und MÜ-Systemebene: 

Die Stilqualität sank bei Bing, Google und Lucy signifikant (nach SQ (-): 
KS). Bi Go Lu 


Die Inhaltsqualitat stieg bei Systran signifikant (nach KS). CQ (+): Sy 


Alle weiteren Qualitätsveränderungen waren nicht signifikant; 
generell sanken sowohl die Stil- als auch die Inhaltsqualität in 
den weiteren Fällen mit Ausnahme der Inhaltsqualität von SDL, 
die leicht anstieg. 


Fünfter Analysefaktor: Korrelation zwischen den Fehlertypen und der Quali- 
tät 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der Fehler- 
anzahl eines bestimmten Fehlertyps (Fehleranzahl nach KS — vor KS) und 
der Differenz der Stil- bzw. Inhaltsqualität (Qualität nach KS — vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der Fehleranzahl 
eines bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsquali- 
tät. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der Fehleranzahl ei- 
nes bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsqualität. 


Resultat 


Auf Regelebene: 

H1 wurde für drei Fehlertypen wie folgt bestätigt: neg LX.4 <> SQ 
Es bestand ein signifikanter mittlerer negativer Zusam- 

menhang zwischen der Differenz der Fehleranzahl des neg LX.3 <> CQ 
LX.4 „Zusätzliches Wort eingefügt“ und der Stilqualitat neg LX.4 <> CQ 
sowie ein signifikanter mittlerer negativer Zusammen- neg GR.10 <> CQ 
hang zwischen der Differenz der Fehleranzahl des LX.3 

„Wort ausgelassen“, LX.4 „Zusätzliches Wort eingefügt“ 

und GR.10 „Wortstellungsfehler“ einzeln und der Diffe- 

renz der Inhaltsqualität. 


392 


5.4 Analyse auf Regelebene sowie auf Regel- und MU-Systemebene 


Auf Regel- und MU-Systemebene: 

Bei Bing bestand ein signifikanter starker negativer Zu- 
sammenhang zwischen der Differenz der Fehleranzahl 
des GR.10 „Wortstellungsfehler“ und der Differenz der 
Stilqualität sowie ein signifikanter mittlerer negativer 
Zusammenhang zwischen der Differenz der Fehleran- 
zahl des SM.11 „Verwechslung des Sinns“ und der Diffe- 
renz der Inhaltsqualität. 


Bei SDL bestand ein signifikanter starker negativer Zu- 
sammenhang zwischen der Differenz der Fehleranzahl 
des LX.3 „Wort ausgelassen“, LX.4 „Zusätzliches Wort 
eingefügt“ und des GR.10 „Falsche Wortstellung“ einzeln 
und der Differenz der Stilqualität sowie ein signifikan- 
ter starker negativer Zusammenhang zwischen der Dif- 
ferenz der Fehleranzahl des OR.1 „Falsche Zeichenset- 
zung“, LX.3, LX.4 und GR.10 einzeln und der Differenz 
der Inhaltsqualität. 


Bei Systran bestand ein signifikanter starker negativer 
Zusammenhang zwischen der Differenz der Fehleran- 
zahl des LX.3 „Wort ausgelassen“ und der Differenz der 
Inhaltsqualität. 


Alle weiteren Korrelationen waren nicht signifikant. 


Bi 
neg GR.10 <<>> SQ 
neg SM.11 <> CQ 


SD 

neg LX.3 <<>> SQ 
neg LX.4 <<>> SQ 
neg GR.10 <<>> SQ 


neg OR.1 <<>> CQ 
neg LX.3 <<>> CQ 
neg LX.4 <<>> CQ 
neg GR.10 <<>> CQ 


Sy 
neg LX.3 <<>> CO 


Sechster Analysefaktor: Vergleich der MÜ-Qualität mit vs. ohne Partizipial- 


konstruktion auf Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität bei den 
einzelnen Annotationsgruppen nach der Anwendung der KS-Regel im Ver- 


gleich zu vor der Anwendung? 


HO - Bei den Annotationsgruppen gibt es keinen Qualitätsunterschied vor vs. 


nach der Anwendung der KS-Regel. 


H1- Beiden Annotationsgruppen gibt es einen Qualitätsunterschied vor vs. nach 


der Anwendung der KS-Regel. 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Resultat 


H1 wurde bei der Annotationsgruppe FF nur fiir die Stilqualitat 
bestatigt: 

Die Stilqualitat sank signifikant, nachdem die Partizipialkon- SQ (—) 
struktion vermieden wurde. 


Die Inhaltsqualitat stieg nur minimal an. CQ (+) 
H1 wurde bei der Annotationsgruppe FR nur fiir die Inhaltsqua- 

litat bestatigt: 

Die Inhaltsqualitat stieg nach der Vermeidung der Partizipialkon- CQ (+) 
struktion signifikant. 


Die Stilqualitat stieg nicht signifikant an. SQ (+) 


Bei den Annotationsgruppen RF und RR sanken die Stil- und In- SQ (-) 
haltsqualitat signifikant (nach KS). CQ (-) 


Siebter Analysefaktor: Vergleich der AEM-Scores mit vs. ohne Partizipialkon- 
struktion 


Fragestellung: Gibt es einen Unterschied in den AEM-Scores von TERbase bzw. 
hLEPOR nach der Anwendung der KS-Regel im Vergleich zu vor der An- 
wendung? 


HO - Es gibt keinen Unterschied in den AEM-Scores vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in den AEM-Scores vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. TERbase (—) 
Die AEM-Scores von TERbase und hLEPOR verschlechterten hLEPOR (—) 
sich signifikant, nachdem die Partizipialkonstruktion ver- 

mieden wurde. 
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Achter Analysefaktor: Korrelation zwischen den Differenzen der AEM-Scores 
und der Qualitat 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der AEM- 
Scores von TERbase bzw. hLEPOR (Mittelwert der AEM-Scores nach KS 
— vor KS) und der Differenz der allgemeinen Qualität (Qualität nach KS — 
vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. pos TERbase <> Q 
Es bestand ein signifikanter mittlerer positiver Zusam- pos hLEPOR <> Q 
menhang zwischen der Differenz des TERbase-Scores 

und der Differenz der allgemeinen Qualitat sowie ein si- 

gnifikanter mittlerer positiver Zusammenhang zwischen 

der Differenz des hLEPOR-Scores und der Differenz der 

allgemeinen Qualität. 


5.4.7 SECHSTE REGEL: Passiv vermeiden 
5.4.7.1 Überblick 


Im Folgenden wird die KS-Regel „Passiv vermeiden“ kurz beschrieben.** Zudem 
wird zusammenfassend und anhand von Beispielen demonstriert, wie die Regel 
bei der Analyse angewendet wurde. Anschließend wird die Aufteilung der Test- 
sätze im Datensatz dargestellt: 


Beschreibung der KS-Regel: Passiv vermeiden (tekom-Regel-Nr. S 501, S 502, S 
503, S 504) 


Nach diesen vier Regeln (tekom 2013: 79ff.) soll die Verwendung des Passivs 
vermieden und stattdessen sollen die Sätze im Aktiv formuliert werden. 


Begründung: Die Passivkonstruktion ist oft nicht eindeutig und lässt den 
Handelnden unklar. Wenn der Täter genannt werden soll, eignet sich die 


“Die für diese Regel relevanten Kontraste im Sprachenpaar DE-EN sind unter §4.5.2.3 erörtert. 
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Aktivformulierung. (ebd.: 79) Insbesondere bei Anweisungen, Sicherheits- 
und Warnhinweisen wird die Aktivkonstruktion empfohlen, damit dem Le- 
ser klar wird, wer die Handlung ausführt oder ausführen soll. Warnungen 
wirken motivierend, wenn sie im Aktiv formuliert sind, da der Leser direkt 
angesprochen wird. (ebd.: 81) 


Umsetzungsmuster: 
Vor KS: Satz formuliert im Passiv 
Nach KS: Satz umformuliert im Aktiv 


KS-Stelle 
Vor KS: Form von ‚werden‘ + Partizip II 
Nach KS: das Verb bzw. das Subjekt + das Verb, wenn das Subjekt im Pas- 
sivsatz nicht enthalten war und erst im Aktivsatz hinzugefügt wurde 


Die Subjekte können bei der MÜ semantisch falsch übersetzt werden, da- 
her werden sie nur als Teil der KS-Stelle betrachtet, wenn sie im Passivsatz 
nicht existieren (vgl. folgende Beispiele). 

Beispiele 


Bei der Arbeit mit elektrischen Geräten sollte stets ein Sicherheitsstecker 


verwendet werden . 


Bei der Arbeit mit elektrischen Geräten verwenden Sie stets einen Sicher- 
heitsstecker. 
Das Programm wird vom Hersteller wie folgt eingestellt. 


Der Hersteller stellt das Programm wie folgt ein. 


Aufteilung der Testsätze: In den deutschen Benutzerhandbüchern und Bedie- 
nungsanleitungen kommt häufig das Passiv in Kombination mit Modal- 
verben vor, entsprechend besteht der Datensatz aus 20 Passivsätzen mit 
Modalverben und 4 Sätzen mit Vorgangspassiv ohne Modalverben. 


Im Folgenden werden die Ergebnisse der einzelnen Analysefaktoren präsen- 
tiert. 
5.4.7.2 Vergleich der Fehleranzahl beim Passiv vs. Aktiv 


Die Fehleranzahl stieg um 30,5 % von 59 Fehlern im Falle der Verwendung von 
Passivkonstruktionen (M = ‚49 / SD = ‚733 / N = 120) auf 77 Fehler bei der Ver- 
wendung von Aktivkonstruktionen (M = ‚64 / SD = ‚914 / N = 120) (Abbildung 
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5.86). Der Mittelwert der Differenz (nach KS — vor KS) der Fehleranzahl pro Satz 
lag somit bei ,15 (SD = ,932) mit einem 95%-Konfidenzintervall zwischen einem 
Minimum von — ,02 (SD = ,731) und einem Maximum von ,32 (SD = 1,111) (Boot- 
strapping mit 1000 Stichproben) (Abbildung 5.87). Die Differenz (nach KS — vor 
KS) der Fehleranzahl war entsprechend nicht signifikant (z (N = 120) = — 1,688 / 
p = 091). 


1,47 
LE oi 
124 
100 F 1,14 
21 1,04 
59 =| so 
ar x 075 a 642 
? 061 
054 CR j 
0 044 
0,37 
Anzahl der fehler il 
0,17 
innerh. KS vor KS on] 
| Anzahl der Fehler I Anzahl der Fehler innerh. KS vor KS 
innerh. KS nach KS I Anzahl der Fehler innerh. KS nach KS 
Abbildung 5.86: „Passiv verm“ — Fehler- Abbildung 5.87: „Passiv verm“ - Mittel- 
summe vor vs. nach KS wert der Fehleranzahl pro Satz vor vs. 
nach KS 


Die Fehlertypen, die erst nach der Regelanwendung auftraten, waren sehr un- 
terschiedlich (mehr dazu unter §5.4.7.4). Daher lässt sich kein Muster ableiten, 
mit dessen Hilfe die Ursache des Anstiegs der Fehleranzahl interpretiert werden 
kann. 


5.4.7.2.1 Vergleich der Fehleranzahl auf Regel- und MÜ-Systemebene 


Zwei signifikante gegensätzliche Reaktionen zeigten die beiden HMÜ-Systeme 
Bing und Systran: Während die Fehleranzahl bei Bing sank (Mdiff = — ‚208; z (N 
= 24) = — 2,236 / p = ,025) stieg sie deutlich bei Systran (Mdiff = ‚542; z (N = 24) 
= — 2,812 / p = ,005). 

Unter den fünf analysierten Systemen stieg die Fehleranzahl nach der Verwen- 
dung der Aktivform bei allen Systemen mit Ausnahme von dem HMÜ-System 
Bing: Google (Mdiff = ,125); Lucy (Mdiff = 125); SDL (Mdiff = ,167) (Abbildung 
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30 
30 F + 15,4 % 
26 + 130,0 % 
23 


+ 30,0 % 


13 
` 62,5 % + 60,0 % 10 10 
5 
3 
0 


Bing Google Lucy SDL Systran 


Summe 


Hl Anzahl der fehler innerh. KS vor KS 
lE Anzahl der Fehler innerh. KS nach KS 


Signifikante Differenz vor vs. nach KS 


Abbildung 5.88: „Passiv verm“ - Summe der Fehleranzahl vor vs. nach 
KS bei den einzelnen MÜ-Systemen 


5.88). Die Zunahme der Fehleranzahl bei Google, Lucy und SDL bei der Verwen- 
dung des Aktivs (nach KS) war nicht signifikant. Bei dem NMÜ-System Google 
Translate und dem SMÜ-System SDL ist eine mögliche Interpretation des (insi- 
gnifikanten) Anstiegs der Fehleranzahl bei der Verwendung des Aktivs (nach KS), 
dass mehr Passiv- als Aktivsätze in den Trainingsdaten dieser Systeme enthalten 
sind. Die Veränderung in der Fehleranzahl im Falle des RBMÜ-Systems und der 
Hybridsysteme lässt sich im Rahmen einer Black-Box-Analyse nicht interpretie- 
ren. 


5.4.7.3 Aufteilung der Annotationsgruppen 


Die größte Annotationsgruppe bei dieser Regel war die Gruppe RR; knapp die 
Hälfte der Sätze wurde sowohl im Passiv als auch im Aktiv fehlerfrei übersetzt 
(Abbildung 5.89). An der zweiten Stelle kommt die Gruppe FF mit ca. 29 %; hier 
beinhalteten die MÜ in beiden Szenarien Fehler. Dann folgt die Gruppe RF mit 
ca. 13 %, in der die Sätze im Passiv, aber nicht im Aktiv, fehlerfrei übersetzt wur- 
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den. Zum Schluss kommt die Gruppe FR mit ca. 8 %, die nur im Aktiv fehlerfrei 
übersetzt werden konnte (Abbildung 5.89). 


Abbildung 5.89: „Passiv verm“ - Aufteilung der Annotationsgruppen 


Im kommenden Abschnitt (85.4.7.4) werden die Fehlertypen, die mit dem Pas- 
siv bzw. dem Aktiv verbunden sind, gegenübergestellt. 


5.4.7.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MÜ- 
Systemebene 


Die größten Anteile bei drei MÜ-Systemen waren bei der Gruppe RR: 71 % der 
Sätze des NMU-Systems Google und des HMÜ-Systems Bing sowie 58 % des 
RBMÜ-Systems Lucy wurden sowohl im Passiv (vor KS) als auch im Aktiv feh- 
lerfrei übersetzt (Abbildung 5.90). Gleichzeitig beinhalteten bei Lucy 38 % der 
Übersetzungen sowohl vor als auch nach der Anwendung der KS-Regel Fehler. 
Die Ergebnisse bei dem HMÜ-System Systran waren ebenfalls gemischt: 38 % bei 
der Gruppe RR und 38 % bei der Gruppe FF. Zudem waren 25 % der Übersetzun- 
gen von Systran im Passiv korrekt und nach der Anwendung des Aktivs falsch 
(Gruppe RF). Das SMÜ-System SDL erzielte auch ein heterogenes Ergebnis: 38 % 
in beiden Szenarien falsch (Gruppe FF); 29 % nur im Aktiv falsch (Gruppe RF) 
und 25 % nur im Passiv falsch (Gruppe FR). 

Bei der Regel „Passiv vermeiden“ zeigt ein genauer Einblick in den Datensatz, 
dass die Annotationsgruppe RF aus insgesamt 16 MÜ besteht, wobei die meisten 
Fälle dieser MÜ bei hauptsächlich zwei MÜ-Systemen vorkamen; und zwar 7 
Fälle bei SDL (47 %) und 6 Fälle bei Systran (40 %) (Abbildung 5.90). 


5.4.7.4 Vergleich der Fehlertypen beim Passiv vs. Aktiv 


Die Fehleranzahl zeigte bei keinem bestimmten Fehlertyp eine deutliche Verän- 
derung. Sowohl bei der Formulierung im Aktiv als auch im Passiv kommen un- 
terschiedliche Fehler(typen) vor (Abbildung 5.91). 
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20 
14,2% 
18 14,2% 
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16 
14 
12 
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13%21%38%38%38% 8% 4% 29%25% 71% 71%58%8% 38% 


FF FR . RF RR 
Annotationsgruppe 


Hnsinsla Google lE Lucy l P spi D H Systran 


Die oben angezeigten Prozentzahlen sind für alle Systeme, d. h. systemübergreifend, (N = 120) 
berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.90: „Passiv verm“ - Aufteilung der Annotationsgruppen 
bei den einzelnen MÜ-Systemen 
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32 


30 = 


Summe 


| F vor KS | I nach KS 


"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken repräsentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. „OR_1.v“ für ,OR_1: orthografischer Fehler Nr. 1“ und 
„V: vor KS“; ,OR_1.n“ wäre entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario („n“). 
OR.1: Orthografie - Zeichensetzung 

OR.2: Orthografie - Großschreibung 

LX.3: Lexik - Wort ausgelassen 

LX.4: Lexik - Zusätzliches Wort eingefügt 

LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 

LX.6: Lexik - Konsistenzfehler 

GR.7: Grammatik - Falsche Wortart / Wortklasse 

GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 

GR.9: Grammatik - Kongruenzfehler (Agreement) 

GR.10: Grammatik - Falsche Wortstellung 

SM.11: Semantik - Verwechslung des Sinns 

SM.12: Semantik - Falsche Wahl 

SM.13: Semantik - Kollokationsfehler 


Abbildung 5.91: „Passiv verm“ - Summe der Fehleranzahl der einzelnen 
Fehlertypen vor vs. nach KS 
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Dementsprechend erwies sich der Unterschied in der Fehleranzahl bei kei- 
nem Fehlertyp als signifikant. Die am häufigsten aufgetretenen Fehler waren der 
Wortstellungsfehler (GR.10) und die Verwechslung des Sinns (SM.11), siehe Abbil- 
dung 5.91. Beide Fehlertypen stiegen im Aktiv (nach KS) leicht an. Nachfolgend 
zwei Beispiele der beiden Fehlertypen (Tabelle 5.95). 


Tabelle 5.95: Beispiel 60 


Vor-KS Das Programm wird vom Hersteller wie folgt eingestellt. 
HMU Systran The program is stopped by the manufacturer as follows. 
Nach-KS Der Hersteller stellt das Programm wie folgt ein. 

HMÜ Systran The manufacturer stops the program as follows. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


In Tabelle 5.95 wird das Verb ‚einstellen‘ verwendet. Es handelt sich dabei um 
ein ambiges Verb, das u. a. als ‚stop‘ oder ‚set‘ übersetzt werden kann. Die Regel 
(Verwendung vom Passiv vs. Aktiv) kann bei solchen Fällen einen semantischen 
Fehler dieser Art nicht beeinflussen. Dies ist anders als der Wortstellungsfehler 
(GR.10) in Tabelle 5.96, bei dem man erwartet, dass Google Translate in der Lage 
sei, den Satz ohne Wortstellungsprobleme zu übersetzen. 


Tabelle 5.96: Beispiel 61 


Vor-KS Flecken sollten so schnell wie möglich behandelt werden. 
GNMÜ Stains should be treated as soon as possible. 
Nach-KS Flecken sollten Sie so schnell wie möglich behandeln. 


GNMÜ Stains should treat you as soon as possible. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Im nächsten Abschnitt wird die Fehleranzahl der verschiedenen Systeme pro 
Fehlertyp gegenübergestellt. 
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5.4.7.4.1 Vergleich der Fehlertypen auf Regel- und MU-Systemebene 


Eine genauere Betrachtung der Fehlertypen auf Systemebene zeigt (Abbildung 
5.92), dass die Fehleranzahl bei den einzelnen Fehlertypen im Allgemeinen gering 
war bzw. sich meistens vor KS im Vergleich zu nach KS kaum veränderte. 

Auf Systemebene waren die am meisten aufgetretenen Fehlertypen LX.4 „Zu- 
sätzliches Wort eingefügt“, GR.10 „Wortstellungsfehler“ (Tabelle 5.96) und SM.11 
„Verwechslung des Sinns“ (Tabelle 5.95). Ein Beispiel für den Fehlertyp LX.4 „Zu- 
sätzliches Wort eingefügt“ zeigt der folgende Fall (Tabelle 5.97): 


Tabelle 5.97: Beispiel 62 


Vor-KS Bei der Arbeit mit elektrischen Geräten sollte stets ein Sicher- 
heitsstecker verwendet werden. 


HMÜ Systran When working with electrical devices, a safety plug should 
always be used. 
Nach-KS Bei der Arbeit mit elektrischen Geräten verwenden Sie stets 


einen Sicherheitsstecker. 


HMU Systran When working with electrical devices, you always use a safe- 
ty plug. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


In Tabelle 5.97 handelt es sich um eine Sicherheitsanweisung. Bei dieser Art 
der technischen Kommunikation wird empfohlen, den Nutzer direkt anzuspre- 
chen, d. h. das Aktiv bzw. den Imperativ zu verwenden. Dennoch war Systran 
nicht in der Lage, die Imperativformulierung korrekt zu parsen. 

Unabhängig von der Fehleranzahl und sogar bei fehlerfreien MÜ hat eine For- 
mulierung im Passiv vs. Aktiv einen großen Einfluss auf den Stil. Daher werden 
im nächsten Abschnitt die Stil- und Inhaltsqualität analysiert und insbesondere 
bei der größten Annotationsgruppe RR näher betrachtet. 


5.4.7.5 Vergleich der MÜ-Qualität beim Passiv vs. Aktiv sowie die 
Korrelation zwischen den Fehlertypen und der Qualität 


Unter den neun analysierten Regeln kommt die Regel „Passiv vermeiden“ auf 
Platz eins mit dem höchsten Rückgang der Stil- und Inhaltsqualität nach der Re- 
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Summe 
"Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 
folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 
**Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 
Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen vorkamen: In dieser 
Grafik kamen die Fehlertypen 1, 2, 5, 6 und 9 bei gar keinem MÜ-System vor. Zudem kam der 
Fehlertyp 7 nur einmal jeweils bei einem MÜ-System vor. 


Abbildung 5.92: „Passiv. verm“ — Summe der Fehleranzahl der Fehler- 
typen vor vs. nach KS bei den einzelnen MÜ-Systemen 
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gelanwendung:*” Die Stilqualität sank um 5,9 % (Mv = 4,41 / SDv = ,482 / Mn = 
4,15 / SDn = ‚506 / N = 83). Die Inhaltsqualität sank um 5,6 % (Mv = 4,62 / SDv = 
097 / Mn = 4,36 / SDn = ‚923 / N = 83), siehe Abbildung 5.93. Der Mittelwert der 
Differenz (nach KS — vor KS) der vergebenen Qualitätspunkte pro Satz lag für 
die Stilqualität bei — ,265 (SD = ,610) mit einem 95%-Konfidenzintervall zwischen 
einem Minimum von — ,398 und einem Maximum von — ,132 und fiir die Inhalts- 
qualitat bei — ,262 (SD = ,944) mit einem 95%-Konfidenzintervall zwischen einem 
Minimum von — ,468 und einem Maximum von — ,056 (Bootstrapping mit 1000 
Stichproben), siehe Abbildung 5.94. Die Differenzen (nach KS — vor KS) in der 
Stil- und Inhaltsqualität erwiesen sich als hochsignifikant (z (N = 83) = — 6,235 / 
p < ,001) bzw. (z (N = 83) = — 4,740 / p < ,001). 


I Differenz SQ (nach KS - vor KS) 
I Differenz CQ (nach KS - vor KS) 
T Differenz Q (nach KS - vor KS) 


95% Cl 


95% Cl 


së Mittelwert SO vor KS 
Mittelwert SQ nach KS 
së Mittelwert CO vor KS 
Mittelwert CQ nach KS 
ss Mittelwert Q vor KS 
WW Mittelwert Q nach KS 


Abbildung 5.93: „Passiv verm“ - Mittel- Abbildung 5.94: „Passiv verm“ - Mittel- 
werte der Qualität vor und nach KS wert der Qualitätsdifferenzen 


Die Humanevaluation deckt den Grund des Qualitätsrückgangs auf. Wie Abbil- 
dung 5.95 zeigt, verschlechtern sich alle Qualitätskriterien nach der Verwendung 
einer Aktivformulierung (nach KS). Hierbei spielten das zweite Stilqualitätskri- 
terium (SQ2 - Stilistische Adaquatheit)*® zusammen mit dem ersten Inhaltsqua- 
litätskriterium (CQ1 - Genauigkeit) die wesentliche Rolle bei der Qualitätsverän- 
derung. 

In Tabelle 5.98 sanken die Stilqualität (— ‚63 Punkte auf der Likert-Skala) und 
die Inhaltsqualität (— ‚25 Punkte auf der Likert-Skala). 


“Definitionen der Qualität unter $4.5.5.1. 

‘8Stilistische Adäquatheit im Sinne von Hutchins & Somers (1992: 163) ist „the extent to which 
the translation uses the language appropriate to its content and intention”. Mehr zu den Defi- 
nitionen der Qualität unter $4.5.5.1. 
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SQ1_v SOL pn SQ2_v SQ2_n SQ3_v SQ3_n CQ1_v COl_n CQ2_v CQ2_n 
SQ1: Ü ist nicht korrekt bzw. nicht klar dargestellt, d. h. nicht orthografisch 
SQ2: U ist nicht ideal fiir die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: U klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. 
CQ2: Ü ist nicht leicht zu verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.95: „Passiv verm“ - Vergleich der Qualitätskriterien 


Tabelle 5.98: Beispiel 63 


Vor-KS Die akustischen Signale können je nach Gerät umprogrammiert 
werden. 


GNMU Depending on the device, the acoustic signals can be repro- 
grammed. 


Nach-KS Die akustischen Signale können Sie je nach Gerät umprogram- 
mieren. 


GNMU Depending on the device, you can reprogram the acoustic signals. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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Nach der Regelanwendung wird der Nutzer durch das Aktiv direkt angespro- 
chen. Dies fanden die Bewerter stilistisch nicht erforderlich (SQ2). Einer der Be- 
werterkommentare lautete: „It’s not common to directly address the reader as 
„yov in these contexts. I’d recommend the passive voice instead.“ Der geringe 
Punktabzug bei der Inhaltsqualität erfolgte aufgrund der Unsicherheit bei der Ge- 
nauigkeit der Übersetzung (CQ1) des Verbs ,umprogrammieren‘ als ‚reprogram‘. 
Hierbei wünschten sich die Bewerter für eine adäquate Übersetzung mehr Kon- 
textinformationen. 


5.4.7.5.1 Korrelation zwischen den Fehlertypen und der Qualität 


Auf Basis der Fehlerannotation zusammen mit der Humanevaluation gibt uns ei- 
ne Spearman-Korrelationsanalyse Aufschluss, wie die Veränderung bei der Feh- 
leranzahl bei jedem Fehlertyp (Anz. nach KS - Anz. vor KS) mit den Qualitätsun- 
terschieden (Q. nach KS - Q. vor KS) zusammenhängt. Bei der Stilqualitat gab es 
zwei signifikante mittlere negative Korrelationen zwischen der Differenz in den 
Fehlertypen LX.4 „Zusätzliches Wort eingefügt“ und GR.10 „Wortstellungsfehler“ 
einzeln und der Differenz in der Stilqualität. Die weiteren signifikanten Korrela- 
tionen zwischen der Differenz in den Fehlertypen LX.3 „Wort ausgelassen“ und 
SM.11 „Verwechslung des Sinns“ einzeln und der Differenz in der Stilqualität wa- 
ren schwache negative Korrelationen. (siehe Tabelle 5.99) 

Bei der Inhaltsqualität gab es drei signifikante mittlere negative Korrelatio- 
nen zwischen der Differenz in den Fehlertypen GR.10, SM.11 und SM.12 „Falsche 
Wahl“ einzeln und der Differenz in der Inhaltsqualität. Die weiteren signifikanten 
Korrelationen zwischen der Differenz in den Fehlertypen LX.3 und LX.4 einzeln 
und der Differenz in der Inhaltsqualität waren schwache negative Korrelationen. 
(siehe Tabelle 5.99) 

Weitere Korrelationen zwischen anderen einzelnen Fehlertypen und der Qua- 
lität konnten nicht erwiesen werden. 

Bei dieser Regel stiegen die vorgekommenen Fehlertypen entweder leicht oder 
blieben nach der Regelanwendung unverändert. Insgesamt sanken sowohl die 
Stilqualität als auch die Inhaltsqualität signifikant. In Tabelle 5.100 beobachten 
wir, wie sich der Wortstellungsfehler in ‚you can connect‘ nach der Regelanwen- 
dung auf die MÜ auswirkt. 

Nach der Formulierung des Satzes im Aktiv, trat der Wortstellungsfehler auf. 
Daraufhin sanken die Stilqualität um 1,25 Punkte und die Inhaltsqualität um 1,63 
Punkte auf der Likert-Skala. 
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Tabelle 5.99: „Passiv verm“ - Korrelation zwischen den Fehlertypen 
und der Qualität 


N D p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 83 ‚014 —,269 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 83 001 —,371 
fügt“ 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 83 <,001 —,431 
Diff. der Anzahl der SM.11 „Verwechslung des 83 ‚038 — ‚228 
Sinns“ 
Diff. der Anzahl der SM.12 „Falsche Wahl“ 83 ‚271 — ‚122 
Differenz CQ (nach KS — vor KS) 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 83 007. - ‚293 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 83 ‚008 — ‚290 
fügt“ 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 83 <,001 - ,473 
Diff. der Anzahl der SM.11 „Verwechslung des 83 ‚001 —,354 
Sinns“ 
Diff. der Anzahl der SM.12 „Falsche Wahl“ 83 ‚004 —,315 
Differenz allg. Q (nach KS — vor KS) 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 83 ‚008  - ‚290 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 83 001 —,349 
fügt“ 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 83 <,001 —,441 


Diff. der Anzahl der SM.11 „Verwechslung des 83 004 —,312 
Sinns“ 


Diff. der Anzahl der SM.12 „Falsche Wahl“ 83 ‚005 —,302 


*In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitätsvariable signifikant korrelieren. 


p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
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Tabelle 5.100: Beispiel 64 


Vor-KS Durch diese Offnung kann der Stecker mit dem Regler verbunden 
werden. 


SMÜSDL Through this opening, the plug can be connected to the controller. 


Nach-KS Durch diese Öffnung können Sie den Stecker mit dem Regler ver- 
binden. 


SMÜSDL Through this opening, the plug you can connect to the controller. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.7.5.2 Vergleich der Qualität auf Regel- und MÜ-Systemebene 


Wie Abbildung 5.96 zeigt, sanken grundsätzlich die Stil- und Inhaltsqualität nach 
der Regelanwendung bei allen Systemen mit der Ausnahme eines leichten An- 
stiegs der Inhaltsqualität bei dem HMÜ-System Bing: 


= Mittelwert SO vor KS 
® Mittelwert SQ nach KS 
=» Mittelwert CO vor KS 
3.00 D Mittelwert CO nach KS 
1 > Mittelwert Q vor KS 
Bing Google Gs sét. e ges @ Mittetwert Q nach KS 


Abbildung 5.96: „Passiv verm“ - Mittelwerte der Qualität vor vs. nach 
KS bei den einzelnen MÜ-Systemen 


Die signifikanten Rückgänge der Stilqualität wurden bei zwei Systemen regi- 
striert: dem RBMU-System Lucy (— 8,4 %) und dem HMU-System Systran (— 9,0 %). 
Einen signifikanten Rückgang der Inhaltsqualität gab es nur bei Systran (— 15,6 %). 
(siehe Tabelle 5.101) 
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Tabelle 5.101: „Passiv verm“ - Signifikanz der Qualitatsveranderung 
bei den einzelnen MÜ-Systemen 


Differenz SQ Differenz CQ Differenz allg. Q 
(nach KS — vor KS) (nachKS-vorKS) (nach KS - vor KS) 
N p z N p z N p Z 
Bing 16 ,130 -1,515 16 ,138 — 1,485 16 ,909 — ,114 
Google 19 ,138 -1,483 19 200 — 1,280 19 ,114 — 1,582 
Lucy 17 ,007 — 2,700 17 1,000 ‚000 17 ‚023 — 2,282 
SDL 14 ,329 — ,975 14 ‚184 -1329 14 3,249 -— 1,154 
Systran 17 ‚31 -2,155 17 ‚009 — 2,603 17 ‚008 — 2,643 


p: Signifikanz 


z: Teststatistik nicht signifikant (p > 0,05) 


Der signifikante Rückgang der Stil- und Inhaltsqualität bei dem HMÜ-System 
Systran kam zum großen Teil dadurch, dass das Subjekt ‚Sie‘ in der aktiven Ver- 
sion (nach KS) als ‚they‘ anstatt ‚you‘ übersetzt wurde (Semantikfehler SM.11 
„Verwechslung des Sinns“). Wie Tabelle 5.102 zeigt, war dieser Semantikfehler 
der einzige Fehler nach der Anwendung der Regel. 


Vor-KS 


HMÜ Systran 


Nach-KS 


HMÜ Systran 


Tabelle 5.102: Beispiel 65 


Der EIN/AUS-Schalter kann komfortabel mit dem Fuß betä- 
tigt werden. 


The ON/OFF switch can be operated conveniently with your 
foot. 


Sie können den EIN/AUS-Schalter komfortabel mit dem Fuß 
betätigen. 


They can operate the ON/OFF switch conveniently with your 
foot. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 


falschen Tokens. 


Bei diesem Satz sank nach der Regelanwendung die Stilqualität (— ‚25 auf der 
Likert-Skala) und die Inhaltsqualität (— 1,63 auf der Likert-Skala). 
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5.4.7.5.3 Korrelation zwischen den Fehlertypen und der Qualität auf Regel- und 
MU-Systemebene 


Anhand der Spearman-Korrelationsanalyse erwies sich nur bei dem SMU-System 
SDL ein signifikanter starker negativer Zusammenhang zwischen der Differenz 
in den Fehlertypen LX.3 „Wort ausgelassen“, LX.4 „Zusätzliches Wort eingefügt“ 
und GR.10 „Wortstellungsfehler“ einzeln und der Stilqualität sowie ein signifikan- 
ter starker negativer Zusammenhang zwischen der Differenz in den Fehlertypen 
LX.3 und GR.10 einzeln und der Inhaltsqualität (siehe Tabelle 5.103). 


Tabelle 5.103: „Passiv verm“ - Korrelationen zwischen den Fehlertypen 
und der Qualität bei den einzelnen MÜ-Systemen 


SDL 

N D p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl LX.3 „W. fehlt“ 14 048 —,536 
Diff. der Anzahl LX.4 ,W. extra“ 14 028 —,584 
Diff. der Anzahl GR.10 „Wortst.“ 14 <,001 —~,807 
Differenz CQ (nach KS — vor KS) 
Diff. der Anzahl LX.3 „W. fehlt“ 14 032 —,573 
Diff. der Anzahl LX.4 „W. extra“ 14 = 052 — ,528 
Diff. der Anzahl GR.10 ,Wortst.“ 14 014 —~,638 
Differenz Q (nach KS — vor KS) 
Diff. der Anzahl LX.3 „W. fehlt“ 14 ‚83 - ‚572 
Diff. der Anzahl LX.4 „W. extra“ 14 ‚0236 —,564 
Diff. der Anzahl GR.10 „Wortst.“ 14 ‚006  - ,697 


*In der Tabelle werden nur die Fehlertypen dargestellt, die bei mind. einer Qualitätsvariable eine 
signifikante Korrelation aufweisen. 


: Signifikanz nicht signifikant (p > 0,05) : Korrelationskoeffizient 
D o1g & p p 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
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In Tabelle 5.104 erschienen der lexikalische Fehlertyp LX.3 „Wort ausgelassen“ 
(das Subjekt ‚you‘ sowie das Verb ‚treat‘ wurden ausgelassen) sowie der Wort- 
stellungsfehler GR.10 (in ‚Stains should‘) nach der Verwendung des Aktivs (Nach 
KS). 


Tabelle 5.104: Beispiel 66 


Vor-KS Flecken sollten so schnell wie möglich behandelt werden. 


SMU SDL Stains should be treated as soon as possible. 


Nach-KS Flecken sollten Sie so schnell wie möglich behandeln. 


SMÜSDL XXX Stains should XXX as soon as possible. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens; XXX für ein fehlendes Wort oder Komma. 


Daraufhin sanken die Stilqualität (um 1,75 Punkte) und die Inhaltsqualität (um 
3,50 Punkte auf der Likert-Skala) nach der Regelanwendung deutlich. 


5.4.7.6 Vergleich der MÜ-Qualität beim Passiv vs. Aktiv auf 
Annotationsgruppenebene 


Die MÜ-Qualität®” sank nach der Regalanwendung in allen Annotationsgruppen 
mit zwei Ausnahmen: In der Gruppe FR (Passivsatz wurde falsch übersetzt; Ak- 
tivsatz wurde richtig übersetzt) stiegen die Stil- und Inhaltsqualität leicht; in der 
Gruppe RR (Satz wurde im Passiv und im Aktiv richtig übersetzt) stieg nur die 
Inhaltsqualität minimal (Abbildung 5.97). 

In der Gruppe FF (Satz wurde im Passiv und im Aktiv falsch übersetzt) sank 
die Stilqualität signifikant (z (N = 25) = — 2,566 / p = ,010) und die Inhaltsqualitat 
nicht signifikant (z (N = 25) = — 1,351 / p = ,177), siehe Tabelle 5.105. 

Tabelle 5.106 zeigt, dass obwohl der semantische Fehler (in der Übersetzung 
des Verbs ‚einstellen‘ als ‚stop‘ anstatt ‚set‘) sich in beiden Szenarien (vor und 
nach KS) wiederholt, die Bewerter die Passivformulierung nicht kritisierten. Im 
Gegenteil - eine der empfohlenen Korrekturen war eine Passivformulierung „The 
program has been set up by the manufacturer as follows“. Entsprechend sank bei 
der Verwendung des Aktivs die Stilqualität um 0,38 Punkte und die Inhaltsquali- 
tät um 0,13 Punkte auf der Likert-Skala. Eine solche Empfehlung unterliegt der 
Einschätzung der Bewerter, inwiefern die Handlung mithilfe des Passivs in den 
Vordergrund gerückt werden sollte. 


®Definitionen der Qualität unter §4.5.5.1. 
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Tabelle 5.105: „Passiv verm“ — Signifikanz der Qualitätsveränderung 
auf Annotationsgruppenebene 


N p Z 
(Signifikanz) (Teststatistik) 


Annotationsgruppe FF 


Differenz SQ (nach KS — vor KS) 25 ,010 — 2.566 
Differenz CQ (nach KS — vor KS) 25 SC — 1,351 
Differenz allg. Q (nach KS — vor KS) 25 ‚019 — 2,345 
Annotationsgruppe FR 

Differenz SQ (nach KS — vor KS) 6 ‚114 — 1,581 
Differenz CQ (nach KS — vor KS) 6 ‚080 — 1,753 
Differenz allg. Q (nach KS — vor KS) 6 ‚075 — 1,782 
Annotationsgruppe RF 

Differenz SQ (nach KS — vor KS) 12 ,003 — 2,940 
Differenz CQ (nach KS — vor KS) 12 ‚002 — 3,062 
Differenz allg. Q (nach KS — vor KS) 12 ‚002 — 3,061 
Annotationsgruppe RR 

Differenz SQ (nach KS — vor KS) 40 ‚061 — 1,876 
Differenz CQ (nach KS — vor KS) 40 427 — ,794 
Differenz allg. Q (nach KS — vor KS) 40 ‚383 — ‚872 


Tabelle 5.106: Beipiel 67 


Vor-KS Das Programm wird vom Hersteller wie folgt eingestellt. 
HMÜ Systran The program is stopped by the manufacturer as follows. 
Nach-KS Der Hersteller stellt das Programm wie folgt ein. 

HMÜ Systran The manufacturer stops the program as follows. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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Annotationsgruppenebene - Vergleich der Mittelwerte vor-KS vs. nach-KS evi 


I Mitelw. 


Stilqualitat - Inhaltsqualität - Allgemeine Qualität 


KS-Regek Passiv vermeiden 


ei $- pa pE Dr 


6,833 


95% Cl 
L 


Annotationsgruppe 


Abbildung 5.97: „Passiv verm“ - Mittelwerte der Qualität vor vs. nach 
KS auf Annotationsgruppenebene 


Erwartungsgemäß stiegen die Stil- und Inhaltsqualität in der Gruppe FR (MÜ 
falsch vor KS; richtig nach KS), dennoch war der Anstieg nicht signifikant, siehe 
Abbildung 5.97 und Tabelle 5.105, denn diese Gruppe war relativ klein (8 %; 10 
Sätze, siehe Abbildung 5.89). 

In der Gruppe RF (MÜ richtig vor KS; falsch nach KS) sanken die Stil- und In- 
haltsqualität signifikant, siehe Tabelle 5.105. Dieses Ergebnis ist nachvollziehbar, 
denn die Humanevaluation zeigte, dass eine richtig übersetzte Passivformulie- 
rung stilistisch und inhaltlich besser als eine falsche Aktivformulierung ist. 

In der Gruppe RR (Satz wurde im Passiv und im Aktiv richtig übersetzt) sank 
die Stilqualität leicht und die Inhaltsqualität stieg minimal. Eine insignifikante 
Veränderung der Qualität bei dieser Gruppe zeigt, dass eine Aktivformulierung 
nicht unbedingt vorteilhaft ist. In Tabelle 5.107 empfahlen die Bewerter zur Ver- 
besserung des Stils, den Satz im Passiv zu formulieren; einer der Bewerterkom- 
mentare lautete: „remove ‘you’ and rewrite as passive: "The configuration of the 
module can be exported...'“. Sie hielten somit eine direkte Anrede des Lesers nicht 
für erforderlich; dies hängt potenziell mit der Möglichkeitsformulierung (in ‚can 
be exproted‘) zusammen, die im Satz ausgedrückt werden soll. 
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Tabelle 5.107: Beispiel 68 


Vor-KS Die Konfigurierung des Moduls kann in eine Datei exportiert 
werden. 


HMU Bing The configuration of the module can be exported to a file. 


Nach-KS Sie können die Konfigurierung des Moduls in eine Datei expor- 
tieren. 


HMU Bing You can export the configuration of the module to a file. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.7.7 Vergleich der AEM-Scores beim Passiv vs. Aktiv sowie die 
Korrelation zwischen den AEM-Scores und der Qualität 


Der Vergleich der AEM-Scores nach der Verwendung des Aktivs (nach KS) zeig- 
te sowohl mit TERbase als auch mit hLEPOR eine Verschlechterung der AEM- 
Scores. 


das 
be: 23033 


-0.0442 


Differenz TERbase (nach KS - vor KS) 
æa Differenz hLEPOR (nach KS - vor KS) 


Differenz = AEM-Score nach KS minus AEM-Score vor KS 


Abbildung 5.98: „Passiv verm“ — Mittelwert der Differenz der AEM- 
Scores 


Der Mittelwert der Differenz (nach KS — vor KS) im AEM-Score pro Satz lag 
für TERbase bei ‚12 (SD = ,210) und für die hLEPOR bei ‚074 (SD = ,135) mit einem 


415 


5 Quantitative und qualitative Analyse der Ergebnisse 


95%-Konfidenzintervall (Bootstrapping mit 1000 Stichproben), siehe Abbildung 
5.78. Die Differenzen (nach KS — vor KS) in TERbase und hLEPOR erwiesen sich 
als hochsignifikant (z (N = 83) = — 4,717 / p < ,001) bzw. (z (N = 83) = — 4,400 /p 
< ,001). Dieses Ergebnis weist darauf hin, dass für die Korrektur der Aktivsätze 
mehr Edits erforderlich wären. 


5.4.7.7.1 Korrelation zwischen den Differenzen in den AEM-Scores und der Qua- 
lität 

Wie der vierte Analysefaktor (§5.4.7.5) zeigte, sank die Qualität nach der Re- 
gelanwendung signifikant. Mithilfe des Spearman-Korrelationstests erwies sich 
ein signifikanter starker positiver Zusammenhang zwischen den Differenzen der 
AEM-Scores von TERbase und hLEPOR und der Differenz der allgemeinen Qua- 
lität. Nach der Verwendung der Aktivformulierung (nach KS) verschlechterten 
sich die Scores der beiden AEMs und es war ein Qualitätsabfall zu bemerken. 


Tabelle 5.108: „Passiv verm“ - Korrelation zwischen den Differenzen 
der AEM-Scores und den Qualitätsdifferenzen 


N Signifikanz Korrelations- Stärke 
(p) koeffizient der 
(p) Korrelation 
Korrelation zw. Diffe- 83 < ,001 ‚504 starker 
renz in der allg. Qualität Zusammen- 
und Differenz des hang 
TERbase-Scores (nach 
KS — vor KS) 
Korrelation zw. Diffe- 83 < ,001 ‚553 starker 
renz in der allg. Qualität Zusammen- 
und Differenz des hang 
hLEPOR-Scores (nach 
KS — vor KS) 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Diese signifikante positive Korrelation deutet darauf hin, dass die in der Hu- 
manevaluation und automatischen Evaluation festgestellten Qualitätsverände- 
rungen übereinstimmen bzw. sich gegenseitig bestätigen. 
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5.4.7.8 Analyse der sechsten Regel - Validierung der Hypothesen 


Um die vorgestellten Ergebnisse auf die Forschungsfragen der Studie zurück- 
zuführen, listet dieser Abschnitt die zugrunde liegenden Hypothesen der For- 
schungsfragen zusammen mit einer Zusammenfassung der Ergebnisse der sech- 
sten analysierten Regel in tabellarischer Form auf. Für einen schnelleren Über- 
blick steht (+) für eine Verbesserung bzw. einen Anstieg z. B. im Sinne eines Qua- 
litätsanstiegs, verbesserter AEM-Scores oder eines Anstiegs der Fehleranzahl; (—) 


steht für einen Rückgang; die grüne Farbe symbolisiert eine signifikante Verän- 


derung; neg steht für eine negative Korrelation und pos für eine positive Korrelati- 
on; <<>> steht für eine starke Korrelation und <> für eine mittlere Korrelation.?® 


Regel 6: Passiv vermeiden 


Erster Analysefaktor: Vergleich der Fehleranzahl beim Passiv vs. Aktiv 


Fragestellung: Gibt es einen Unterschied in der Fehleranzahl nach der Anwen- 
dung der KS-Regel im Vergleich zu vor der Anwendung? 


HO - Es gibt keinen Unterschied in der Fehleranzahl vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in der Fehleranzahl vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


Auf Regelebene: 

H0 wurde nicht abgelehnt und somit konnte H1 nicht bestätigt Anz.F. (+) 
werden. 

Die Fehleranzahl stieg nach der Verwendung des Aktivs (nach 

KS), allerdings war der Anstieg nicht signifikant. 

Auf Regel- und MÜ-Systemebene: 

Bei Bing sank die Fehleranzahl signifikant, nach der Verwendung Bi (—) 
des Aktivs (nach KS). Sy (+) 
Hingegen stieg bei Systran die Fehleranzahl. 


Bei den anderen drei Systemen stieg die Fehleranzahl nicht signi- Go (+) 
fikant (nach KS). Lu (+) 
SD (+) 


5°Schwache Korrelationen werden in dieser Übersicht nicht angezeigt. 
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Zweiter Analysefaktor 


Abbildung 5.99: Aufteilung der Annotationsgruppen auf Regelebene 


14 H 


10 - 


| 
FF FR RF 


Annotationsgruppe 


IFEN T Google lE Lucy BP spi! E Systran 


Abbildung 5.100: Aufteilung der Annotationsgruppen auf Regel- und 
MU-Systemebene 
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Dritter Analysefaktor: Vergleich der Fehlertypen beim Passiv vs. Aktiv 


Fragestellung: Beinhaltet die MU bestimmte Fehlertypen vor bzw. nach der An- 
wendung der KS-Regel? 


HO - Es gibt keinen Unterschied in der Häufigkeit der einzelnen Fehlertypen 
vor vs. nach der Anwendung der KS-Regel. 


H1- Es gibt einen Unterschied in der Häufigkeit der einzelnen Fehlertypen vor 
vs. nach der Anwendung der KS-Regel. 


Resultat 


Auf Regelebene: 

HO wurde nicht abgelehnt und somit konnte H1 nicht bestätigt werden. 

Der Unterschied in der Fehleranzahl erwies sich bei keinem der Fehlertypen als 
signifikant. 

Auf Regel- und MÜ-Systemebene: 

Es gab bei keinem der Systeme signifikante Veränderungen in den Fehlertypen. 
Die Fehleranzahl bei den einzelnen Fehlertypen fiel im Allgemeinen gering aus 
bzw. veränderte sich meistens vor vs. nach KS kaum. 


Vierter Analysefaktor: Vergleich der MÜ-Qualität beim Passiv vs. Aktiv 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität der MÜ 
der KS-Stelle nach der Anwendung der KS-Regel im Vergleich zu vor der 
Anwendung? 


HO - Es gibt keinen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


H1- Es gibt einen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


Resultat 


Auf Regelebene: 

H0 wurde abgelehnt und somit H1 bestätigt. SQ (-) 

Sowohl die Stil- als auch die Inhaltsqualität sanken signifikant. CQ (-) 

Auf Regel- und MÜ-Systemebene: 

Die Stilqualität sank bei Lucy und Systran signifikant (nach KS). SQ (-): 
Lu Sy 
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Die Inhaltsqualitat sank bei Systran signifikant (nach KS). CQ (-): Sy 


Alle weiteren Qualitätsveränderungen waren nicht signifikant; 
generell sanken sowohl die Stil- als auch die Inhaltsqualität in 
den weiteren Fällen mit Ausnahme der Inhaltsqualität von Bing, 
die leicht anstieg. 


Fünfter Analysefaktor: Korrelation zwischen den Fehlertypen und der Quali- 
tät 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der Fehler- 
anzahl eines bestimmten Fehlertyps (Fehleranzahl nach KS — vor KS) und 
der Differenz der Stil- bzw. Inhaltsqualität (Qualität nach KS — vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der Fehleranzahl 
eines bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsquali- 
tät. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der Fehleranzahl ei- 
nes bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsqualität. 


Resultat 


Auf Regelebene: 

H1 wurde für vier Fehlertypen wie folgt bestätigt: neg LX.4 <> SQ 
Es bestand ein signifikanter mittlerer negativer Zusam- neg GR.10 <> SQ 
menhang zwischen der Differenz der Fehleranzahl des 

LX.4 „Zusätzliches Wort eingefügt“ und GR.10 ,Wortstel- neg GR.10 <> CQ 
lungsfehler“ einzeln und der Stilqualität sowie ein signi- neg SM.11 <> CQ 
fikanter mittlerer negativer Zusammenhang zwischen neg SM.12 <> CQ 
der Differenz der Fehleranzahl des GR.10 „GR - Wortstel- 

lungsfehler“, SM.11 „Verwechslung des Sinns“ und SM.12 

„Falsche Wahl“ einzeln und der Differenz der Inhaltsqua- 

lität. 

Auf Regel- und MÜ-Systemebene: 
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Bei SDL bestand ein signifikanter starker negativer Zu- SD 

sammenhang zwischen der Differenz der Fehleranzahl neg LX.3 <<>> SQ 
des LX.3 „Wort ausgelassen“, LX.4 „Zusätzliches Wort neg LX.4 <<>> SQ 
eingefügt“ und GR.10 „Wortstellungsfehler“ einzeln und neg GR.10 <<>> SQ 
der Differenz der Stilqualitat sowie ein signifikanter star- 

ker negativer Zusammenhang zwischen der Differenz neg LX.3 <<>> CQ 
der Fehleranzahl des LX.3 „Wort ausgelassen“ und GR.10 neg GR.10 <<>> 
„Wortstellungsfehler“ einzeln und der Differenz der In- CQ 

haltsqualitat. 


Alle weiteren Korrelationen waren nicht signifikant. 


Sechster Analysefaktor: Vergleich der MU-Qualitat beim Passiv vs. Aktiv auf 
Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualitat bei den 
einzelnen Annotationsgruppen nach der Anwendung der KS-Regel im Ver- 
gleich zu vor der Anwendung? 


HO - Bei den Annotationsgruppen gibt es keinen Qualitätsunterschied vor vs. 
nach der Anwendung der KS-Regel. 


H1- Beiden Annotationsgruppen gibt es einen Qualitatsunterschied vor vs. nach 
der Anwendung der KS-Regel. 


Resultat 


H1 wurde bei der Annotationsgruppe FF nur fiir die Stilqualitat 
bestatigt: 

Die Stilqualität sank signifikant bei der Aktivformulierung (nach SQ (—) 
KS). 


Der Riickgang der Inhaltsqualitat war gering. CQ (-) 
Bei der Annotationsgruppen RF sanken die Stil- und Inhaltsqua- SQ (—) 
lität signifikant (nach KS). CQ (-) 
Bei der Annotationsgruppe FR stiegen die Qualitätswerte leicht. SQ (+) 
CQ (+) 
Bei der Annotationsgruppe RR sank die Stilqualität leicht und SQ (-) 
die Inhaltsqualitat stieg minimal. CQ (+) 
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Siebter Analysefaktor: Vergleich der AEM-Scores beim Passiv vs. Aktiv 


Fragestellung: Gibt es einen Unterschied in den AEM-Scores von TERbase bzw. 
hLEPOR nach der Anwendung der KS-Regel im Vergleich zu vor der An- 
wendung? 


HO - Es gibt keinen Unterschied in den AEM-Scores vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in den AEM-Scores vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. TERbase (—) 
Die AEM-Scores von TERbase und hLEPOR verschlechterten hLEPOR (-) 
sich signifikant im Falle der Aktivformulierung (nach KS). 


Achter Analysefaktor: Korrelation zwischen den Differenzen der AEM-Scores 
und der Qualität 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der AEM- 
Scores von TERbase bzw. hLEPOR (Mittelwert der AEM-Scores nach KS 
— vor KS) und der Differenz der allgemeinen Qualität (Qualität nach KS — 
vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. pos TERbase <> Q 
Es bestand ein signifikanter mittlerer positiver Zusam- pos hLEPOR <> Q 
menhang zwischen der Differenz des TERbase-Scores 

und der Differenz der allgemeinen Qualitat sowie ein si- 

gnifikanter mittlerer positiver Zusammenhang zwischen 

der Differenz des hLEPOR-Scores und der Differenz der 

allgemeinen Qualität. 
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5.4.8 SIEBTE REGEL: Konstruktionen mit „sein + zu + Infinitiv“ 
vermeiden 


5.4.8.1 Überblick 


Im Folgenden wird die KS-Regel „Konstruktionen mit ‚sein + zu + Infinitiv ver- 
meiden“ kurz beschrieben.°! Zudem wird zusammenfassend und anhand von Bei- 
spielen demonstriert, wie die Regel bei der Analyse angewendet wurde. Anschlie- 
ßend wird die Aufteilung der Testsätze im Datensatz dargestellt: 


Beschreibung der KS-Regel: Konstruktionen mit „sein + zu + Infinitiv“ vermei- 
den (tekom-Regel-Nr. S 511) 
Nach dieser Regel (tekom 2013: 86) soll die Passiversatzkonstruktion „sein 
+ zu + Infinitiv“ bei Anweisungen vermieden werden. Stattdessen sollen 
diese durch einen Infinitiv oder die direkte Anrede formuliert werden. 


Begründung: Diese Passiversatzkonstruktion ist umständlich und der Le- 
ser wird nicht direkt angesprochen. Der Infinitiv bzw. eine direkte Anrede 
fördert die schnelle und richtige Umsetzung der Handlung (ebd.). 


Umsetzungsmuster: 
Vor KS: Der Satz ist mit einem Passiversatz (sein + zu + Infinitiv) formuliert. 
Nach KS: zwei Varianten sind möglich 
- Imperativ am Satzende 
— Imperativ am Satzanfang 
Beide Varianten wurden bei der Übersetzung mit MÜ-Systemen getestet. 


Da die erste Variante mit mehr MÜ-Fehlern verbunden war, wurde ent- 
schieden, die zweite Variante als Umsetzungsmuster zu verwenden. 


Wenn der Satz vor KS mit ‚so‘ formuliert ist, wurde ‚so‘ aus stilistischen 


Gründen nach KS entfernt. 


KS-Stelle 
Vor KS: sein + zu + Infinitiv 
Nach KS: Imperativ + Subjekt 


Beispiele 


Die Herstellerangaben sind stets zu beachten . 


"Die für diese Regel relevanten Kontraste im Sprachenpaar DE-EN sind unter §4.5.2.3 erörtert. 
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Beachten Sie stets die Herstellerangaben. 
Ist ein mehrstufiges Modul parametriert, so sind die externen Kontakte zu 


verriegeln . 


Ist ein mehrstufiges Modul parametriert, verriegeln Sie die externen Kontak- 
te. 


Aufteilung der Testsätze: Der Datensatz besteht aus 24 verschieden Verben im 
Passiversatz, die an unterschiedlichen Stellen in den Sätzen platziert sind. 


Im Weiteren werden die Ergebnisse der einzelnen Analysefaktoren demon- 
striert. 


5.4.8.2 Vergleich der Fehleranzahl mit vs. ohne die Konstruktion „sein + zu 
+ Infinitiv“ 


Die Fehleranzahl sank um mehr als ein Drittel, nämlich um 37,2 %, von 86 Feh- 
lern bei der Verwendung des Passiversatzes mit „sein + zu + Infinitiv“ (M = ‚72 
/ SD = ‚881 / N = 120) auf 54 Fehler bei der Vermeidung des Passiversatzes (M 
= ‚45 / SD = ‚765 / N = 120), siehe Abbildung 5.101. Knapp 80 % (19 von 24) der 
analysierten Sätze wurden von mindestens einem MÜ-System falsch übersetzt 
und mithilfe der KS-Regel korrigiert. Der Mittelwert der Differenz (nach KS — 
vor KS) der Fehleranzahl pro Satz lag somit bei — ‚27 (SD = 1,098) mit einem 
95%-Konfidenzintervall zwischen einem Minimum von — ‚47 (SD = ,864) und ei- 
nem Maximum von — ‚07 (SD = 1,311) (Bootstrapping mit 1000 Stichproben), siehe 
Abbildung 5.102. Die Differenz (nach KS — vor KS) der Fehleranzahl erwies sich 
als signifikant (z (N = 120) = — 3,059 / p = ,002). 

Die Sätze, die falsch übersetzt wurden, haben keine gemeinsamen Eigenschaf- 
ten. Sie sind unterschiedlich lang und der Passiversatz war unterschiedlich plat- 
ziert. Es scheint, dass die MÜ-Systeme durch das zusätzliche Verb (sind) im Passi- 
versatz irregeleitet werden und dadurch Schwierigkeiten haben, den Satz korrekt 
zu parsen. In Tabelle 5.109 konnte das Verb nicht richtig übersetzt werden (is ... 
turn off‘). Durch die Regelanwendung konnte dieses Problem gelöst werden. 


5.4.8.2.1 Vergleich der Fehleranzahl auf Regel- und MÜ-Systemebene 


Ein genauer Einblick bei den einzelnen MÜ-Systemen zeigt, dass die Fehleranzahl 
bei zwei MÜ-Systemen sank (Abbildung 5.103). 
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Abbildung 5.101: „Passiversatz verm“ - Abbildung 5.102: „Passiversatz verm“ — 
Fehlersumme vor vs. nach KS Mittelwert der Fehleranzahl pro Satz 
vor vs. nach KS 


Tabelle 5.109: Beispiel 69 


Vor-KS Bei Funktionsstörungen ist die Maschine sofort auszuschalten. 
HMU Bing In the event of malfunction, the machine is immediately turn off. 
Nach-KS Bei Funktionsstörungen schalten Sie die Maschine sofort aus. 
HMU Bing In the event of malfunction, turn off the machine immediately. 


Die KS-Stelle ist fett dargestellt. Blau wird fiir die korrekten Tokens verwendet; Rot fiir die 
falschen Tokens. 
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Abbildung 5.103: ,Passiversatz verm“ — Summe der Fehleranzahl vor 
vs. nach KS bei den einzelnen MÜ-Systemen 


Bei dem NMÜ-System Google Translate wurden 23 der 24 analysierten Sätze 
sowohl vor als auch nach der Anwendung der KS-Regel korrekt übersetzt. Mit 
Ausnahme von Google waren die Differenzen bei allen anderen MÜ-Systemen si- 
gnifikant (Abbildung 5.103): Die Abnahme bei Bing betrug 85,2 % (Mdiff = — ‚958; 
z (N = 24) = — 3,573 / p < ,001) und bei SDL 78,4 % (Mdiff = — 1,208; z (N = 24) = 
— 3,815 / p < ,001). Auf der anderen Seite belief sich die Zunahme bei Lucy auf 
81,8 % (Mdiff = ‚375; z (N = 24) = — 2,496 / p = ,013) und bei Systran auf 133,3 % 
(Mdiff = ‚500; z (N = 24) = — 2,126 / p = ,033). In Tabelle 5.110 werden die MU von 
SDL vs. Google verglichen: 

Die Passiversatzkonstruktion war für SDL problematisch zu übersetzen. SDL 
hatte auf semantischer Ebene (die Ambiguität des Verbs ‚belegen‘ und auf syn- 
taktischer Ebene (die Passiversatzkonstruktion) Schwierigkeiten bei der Über- 
setzung des Satzes vor und nach der Regelanwendung. Die Regelanwendung er- 
leichterte für SDL die Übersetzung auf syntaktischer Ebene, dennoch blieb das 
Problem der Ambiguität des Verbs ungelöst. Auf der anderen Seite war Google in 
der Lage, den Satz vor und nach der Regelanwendung fehlerfrei zu übersetzen. 
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Tabelle 5.110: Beispiel 70 


Vor-KS Das Kaufdatum ist durch eine Kaufquittung zu belegen. 


SMU SDL The purchase date is through a purchase receipt to prove. 
GNMU The purchase date is to be confirmed by a purchase receipt. 


Nach-KS Belegen Sie das Kaufdatum durch eine Kaufquittung. 


SMU SDL Assign the purchase date by a purchase receipt. 
GNMU Confirm the purchase date with a purchase receipt. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.8.3 Aufteilung der Annotationsgruppen 


Die größte Annotationsgruppe bei dieser Regel war die Gruppe RR; etwa 39 % 
der analysierten Sätze wurden sowohl mit als auch ohne die Passiversatzkon- 
struktion fehlerfrei übersetzt (Abbildung 5.104). Eine weitere große Gruppe war 
FR, in der knapp 28 % der Sätze erst nach der Regelanwendung korrekt übersetzt 
werden konnten. Die Gruppe FF war ebenfalls relativ groß; knapp 21 % der Sätze 
konnten weder vor noch nach der Regelanwendung korrekt übersetzt werden. 


Abbildung 5.104: „Passiversatz verm“ - Aufteilung der Annotations- 
gruppen 


Die kleinste Gruppe war RF (ca. 12 %), in der die Passiversatzkonstruktion feh- 
lerfrei übersetzt wurde und erst nach der Regelanwendung beinhaltete die Über- 
setzung Fehler (Abbildung 5.104). Im kommenden Abschnitt (§5.4.8.4) werden 
die aufgetretenen Fehlertypen analysiert. 
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5.4.8.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MU- 
Systemebene 


Eine Analyse der Annotationsgruppenaufteilung zeigte Folgendes (Abbildung 
5.105): 
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Die oben angezeigten Prozentzahlen sind für alle Systeme, d h. systemübergreifend, (N = 120) 
berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.105: „Passiversatz verm“ - Aufteilung der Annotations- 
gruppen bei den einzelnen MÜ-Systemen 


Bei zwei Systemen wurde die Mehrheit der falschen Übersetzungen mit Passi- 
versatz (vor KS) nach der Regelanwendung korrekt übersetzt (Gruppe FR). Diese 
Systeme sind das HMÜ-System Bing mit 71% und das SMÜ-System SDL mit 58 %. 
Auch bei dieser Regel waren 96 % der Übersetzungen des NMÜ-Systems Google 
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mit und ohne die Verwendung eines Passiversatzes korrekt (Gruppe RR). Die- 
ser Prozentsatz ist mehr als doppelt so hoch wie die RR-Gruppe bei dem HMU- 
System Systran (42 %) und mehr als dreimal so hoch wie bei dem RBMU-System 
Lucy (29 %). 


5.4.8.4 Vergleich der Fehlertypen mit vs. ohne die Konstruktion „sein + zu 
+ Infinitiv“ 


Bei dieser Regel gab es signifikante Differenzen in der Fehleranzahl bei vier Feh- 
lertypen: einen Anstieg beim lexikalischen Fehlertyp LX.4 ,Zusatzliches Wort 
eingefügt“ sowie einen Rückgang bei den grammatischen Fehlertypen GR.8 „Fal- 
sches Verb (Zeitform, Komposition, Person)“, GR.9 „Kongruenzfehler“ und GR.10 
„Falsche Wortstellung“. Der Unterschied bei den Fehlertypen LX.4, GR.8, GR.9 
und GR.10 erwies sich wie folgt als signifikant: p < ‚001 bei den Fehlertypen LX.4 
und GR.8 bzw. p = ‚008 bei den Fehlertypen GR.9 und GR.10 / N = 120 (Abbildung 
5.106). 

Um diese KS-Regel umzusetzen, wird der Passiversatz durch einen Imperativ 
ersetzt. Der Anstieg bei Fehlertyp LX.4 „Zusätzliches Wort eingefügt“ von 1 auf 
26 (2500 % / Mv = ‚01 / SDv = ‚091 / Mn = ‚22 / SDn = ‚414 / N = 120) entstand 
dadurch, dass einige Systeme den Imperativ (nach KS) nicht als solchen identi- 
fizieren konnten und stattdessen als normalen Ausgangssatz mit Subjekt ‚you‘ 
plus Verb übersetzten. Tabelle 5.111 demonstriert diesen Fall: 


Tabelle 5.111: Beispiel 71 


Vor-KS Ist nur ein Gerät angeschlossen, so ist die Funktion PP zu 
wählen. 


HMU Systran If only one device is connected, the "PP" function is to be sel- 
ected. 


Nach-KS Ist nur ein Gerät angeschlossen, so wählen Sie die Funktion 
PP. 


HMÜ Systran If only one device is connected, you select the "PP" function. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Hingegen sank die Fehleranzahl bei den Fehlertypen GR.8 „Falsches Verb (Zeit- 
form, Komposition, Person)“ von 34 auf 2 (— 94,1% / Mv = ‚28 / SDv = ‚453 / Mn = 
‚02 / SDn = ‚129 / N = 120) und GR.10 „Falsche Wortstellung“ von 17 auf 5 (— 70,6 % 
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"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken repräsentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. „OR_1.v“ für ,OR_1: orthografischer Fehler Nr. 1“ und 
„v: vor KS“; ,OR_1.n“ wäre entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario („n“). 
“Signifikante Differenz vor vs. nach KS 

OR.1: Orthografie - Zeichensetzung 

OR.2: Orthografie - Großschreibung 

LX.3: Lexik - Wort ausgelassen 

LX.4: Lexik - Zusätzliches Wort eingefügt 

LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 

LX.6: Lexik - Konsistenzfehler 

GR.7: Grammatik - Falsche Wortart / Wortklasse 

GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 

GR.9: Grammatik - Kongruenzfehler (Agreement) 

GR.10: Grammatik - Falsche Wortstellung 

SM.11: Semantik - Verwechslung des Sinns 

SM.12: Semantik - Falsche Wahl 

SM.13: Semantik - Kollokationsfehler 


Abbildung 5.106: „Passiversatz verm“ - Summe der Fehleranzahl der 
einzelnen Fehlertypen vor vs. nach KS 
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/ Mv = ‚14 / SDv = ‚350 / Mn = ‚04 / SDn = ,201/ N = 120). Zudem wurde der Fehler- 
typ GR.9 „Kongruenzfehler (Agreement) nach der Regelanwendung vollständig 
behoben, von 9 auf 0, (— 100 % / Mv = ‚08 / SDv = 264 / Mn=-/SDn=-/N 
= 120). Die grammatische Konstruktion eines Passiversatzes „sein + zu + Infini- 
tiv“ erschwert die syntaktische Analyse (Parsing) und lässt die MÜ ein falsches 
Verb, falsche Kongruenz bzw. falsche Wortstellung produzieren. Wenn wir den 
vorherigen Beispielsatz bei dem System Bing genauer betrachten, leuchtet diese 
grammatische Schwierigkeit ein (Tabelle 5.112). 


Tabelle 5.112: Beispiel 72 


Vor-KS Ist nur ein Gerät angeschlossen, so ist die Funktion "PP" zu wah- 
len. 


HMU Bing If only one device is connected, the function is "PP" to choose. 


Nach-KS Ist nur ein Gerat angeschlossen, so wahlen Sie die Funktion "PP". 


HMU Bing If only one device is connected, select the "PP" function. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Die MU der Passiversatzkonstruktion wurde falsch gebildet (GR.8) und plat- 
ziert (GR.10). In diesem Fall unterstiitzte die Regel Bing bei der Eliminierung 
beider Fehlertypen. 


5.4.8.4.1 Vergleich der Fehlertypen auf Regel- und MU-Systemebene 


Eine genauere Untersuchung der Fehlertypen bei den verschiedenen MU-Systemen 
zeigt (Abbildung 5.107), dass ein signifikanter Unterschied in der Fehleranzahl 
des Fehlertyps LX.4 „Zusätzliches Wort eingefügt“ bei dem RBMÜ-System Lucy 
von 1 auf 13 (+ 1200 %) und dem HMU-System Systran von 0 auf 10 (+ 100 %) zu 
beobachten ist (Tabelle 5.113). 

Aus den signifikant veränderten grammatischen Fehlertypen GR.8, GR.9 und 
GR.10 wurde der Fehlertyp GR.8 „Falsches Verb (Zeitform, Komposition, Person)“ 
bei dem HMÜ-System Bing (von 19 auf 0; — 100 %) nach der Anwendung der KS- 
Regel vollständig behoben und sank deutlich bei dem SMÜ-System SDL (von 14 
auf 2; — 85,7 %). Der Fehlertyp GR.9 „Kongruenzfehler (Agreement)“ zeigte bei 
keinem bestimmten System eine signifikante Veränderung. Der Fehlertyp GR.10 
„Falsche Wortstellung“ verringerte sich bei dem SMU-System SDL (von 11 auf 1; 
— 90,9 %). Die Differenz in der Fehleranzahl bei den Fehlertypen LX.4, GR.8 und 
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"Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 
folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 
“Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 

Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen vorkamen: In dieser 
Grafik traten die Fehlertypen 1, 5 und 6 bei gar keinem MÜ-System auf. Zudem wurden die 


Fehlertypen 2 und 13 nur einmal jeweils bei 1-3 MÜ-Systemen in vereinzelten Fällen registriert. 


Abbildung 5.107: „Passiversatz verm“ - Summe der Fehleranzahl der 


Fehlertypen vor vs. nach KS bei den einzelnen MÜ-Systemen 
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GR.10 erwies sich in den genannten Systemen folgendermaßen als signifikant 
(Tabelle 5.113). 


Tabelle 5.113: „Passiversatz verm“ - Fehlertypen mit signifikanter Ver- 
änderung nach KS 


N Mittelwert Standard- Signifikanz 
abweichung (McNemar-Test) 


LX.4 „Zusätzliches Wort eingefügt“ 


Lucy 24 vor KS = ,04 vor KS = ,204 p < ‚001 
nach KS = 54 nach KS = ,509 
Systran 24 vorKS=- vor KS = - p = ‚004 


nach KS = 42 nach KS = ,504 


GR.8 „Falsches Verb (Zeitform, Komposition, Person)“ 


Bing 24 vor KS = ‚79 vor KS = ‚415 p < ‚001 
nach KS = - nach KS = - 
SDL 24 vor KS = ,58 vor KS = ,504 p < ‚001 


nach KS = ,08 nach KS = ,282 


GR.10 „Falsche Wortstellung“ 
SDL 24 vor KS = ,46 vor KS = ,509 p = ‚002 
nach KS = ,04 nach KS = ‚204 


Die Verwendung eines Imperativs anstelle eines Passiversatzes vereinfachte 
die Satzstruktur für die älteren MÜ-Ansätze. Bei dem Neuronalen Ansatz hin- 
gegen konnte Google mit Ausnahme von einem Satz alle Sätze sowohl mit dem 
Passiversatz (vor KS) als auch mit dem Imperativ (nach KS) korrekt übersetzen 
(siehe Tabelle 5.110). 


5.4.8.5 Vergleich der MÜ-Qualität mit vs. ohne die Konstruktion „sein + zu 
+ Infinitiv“ sowie die Korrelation zwischen den Fehlertypen und der 
Qualität 


Sowohl die Stil- als auch die Inhaltsqualität”? stiegen nach der Verwendung des 


Imperativs anstelle der Passiversatzkonstruktion deutlich an (Abbildung 5.108): 
Die Stilqualität nahm um 12,9 % zu (Mv = 3,73 / SDv = ‚666 / Mn = 4,21 / SDn = 
‚»69 / N = 97). Die Inhaltsqualität erhöhte sich um 10,6 % (Mv = 4,17 / SDv = ‚886 


Definitionen der Qualität unter §4.5.5.1. 
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/ Mn = 4,61 / SDn = ,633 / N = 97). Der Mittelwert der Differenz (nach KS — vor 
KS) der vergebenen Qualitätspunkte pro Satz lag für die Stilqualitat bei ‚474 (SD 
= ,697) mit einem 95%-Konfidenzintervall zwischen einem Minimum von ,334 
und einem Maximum von ,615 und für die Inhaltsqualität bei ‚434 (SD = ,999) mit 
einem 95%-Konfidenzintervall zwischen einem Minimum von ,233 und einem 
Maximum von ,636 (Bootstrapping mit 1000 Stichproben) (Abbildung 5.109). Die 
Differenzen (nach KS — vor KS) in der Stil- und Inhaltsqualitat erwiesen sich als 
hochsignifikant (z (N = 97) = — 5,758 / p < ,001) bzw. (z (N = 97) = — 3,806 / p < 
001). 


I Differenz SQ (nach KS - vor KS) 
I Differenz CQ (nach KS - vor KS) 
T Differenz Q (nach KS - vor KS) 


95% Cl 


95% Cl 


se Mittelwert SO vor KS 
Mittelwert SQ nach KS 
® Mittelwert CO vor KS 
Mittelwert CQ nach KS 
së Mittelwert Q vor KS 
WW Mittelwert Q nach KS 


Abbildung 5.108: „Passiversatz verm. - Abbildung 5.109: „Passiversatz verm“ - 
Mittelwerte der Qualität vor und nach Mittelwert der Qualitätsdifferenzen 
KS 


Die Humanevaluation deckt den Grund des Qualitätsanstiegs auf. Wie Abbil- 
dung 5.110 zeigt, spielten hierbei das zweite Stilqualitätskriterium (SQ2) zusam- 
men mit dem ersten und zweiten Inhaltsqualitätskriterium (CQ1 und CQ2) die 
wesentliche Rolle bei der Qualitätsveränderung. 

Tabelle 5.114 verdeutlicht, wie die genannten Qualitätskriterien durch die Re- 
gelanwendung beeinflusst wurden. 

In diesem Satz wurde der Nutzer (nach KS) durch den Imperativ direkt ange- 
sprochen. Dies erhöhte laut der Humanevaluation die Motivierung zum Handeln 
(SQ2). Außerdem wurden durch die Vereinfachung der Satzstruktur grammati- 
sche Fehler wie die falsche Verbform und Wortstellung korrigiert. Dadurch zeig- 
te sich in der Humanevaluation eine deutliche Steigerung der Genauigkeit und 
Verständlichkeit der Übersetzung (CQ1 und CQ2). 
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SQ1_v SOL pn SQ2_v SQ2_n SQ3_v SQ3_n CQ1_ v CQ1_n CQ2_v CQ2_n 
SQ1: Ü ist nicht korrekt bzw. nicht klar dargestellt, d. h. nicht orthografisch. 
SQ2: Ü ist nicht ideal für die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: Ü klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. 
CQ2: Ü ist nicht leicht zu verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.110: „Passiversatz verm“ - Vergleich der Qualitätskriterien 


Tabelle 5.114: Beispiel 73 
Vor-KS Ist nur ein Gerät angeschlossen, so ist die Funktion PP zu wäh- 
len. 
HMÜ Bing If only one device is connected, the function is "PP" to choose. 
Nach-KS Ist nur ein Gerät angeschlossen, so wahlen Sie die Funktion PP. 
HMU Bing If only one device is connected, select the "PP" function. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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5.4.8.5.1 Korrelation zwischen den Fehlertypen und der Qualitat 


Auf Basis der Fehlerannotation zusammen mit der Humanevaluation gibt uns ei- 
ne Spearman-Korrelationsanalyse Aufschluss, wie die Veranderung in der Fehler- 
anzahl bei jedem Fehlertyp (Anz. nach KS - Anz. vor KS) mit den Qualitätsunter- 
schieden (Q. nach KS - Q. vor KS) zusammenhängt. Mithilfe des Spearman-Tests 
erwies sich ein signifikanter starker negativer Zusammenhang zwischen der Dif- 
ferenz im Fehlertyp GR.8 „Falsches Verb (Zeitform, Komposition, Person)“ und 
der Differenz in der Stilqualität. Außerdem erwies sich ein signifikanter mittle- 
rer negativer Zusammenhang zwischen der Differenz in den Fehlertypen LX.4 
„Zusätzliches Wort eingefügt“ und GR.10 „Wortstellungsfehler“ einzeln und der 
Differenz in der Stilqualität; sowie ein signifikanter schwacher negativer Zusam- 
menhang zwischen der Differenz in den Fehlertypen LX.3 „Wort ausgelassen“, 
GR.7 „Falsche Wortart / Wortklasse“ und SM.12 „Falsche Wahl“ einzeln und der 
Differenz in der Stilqualität. (siehe Tabelle 5.115) 

Bezüglich der Inhaltsqualität erwies sich ein signifikanter starker negativer 
Zusammenhang zwischen der Differenz im Fehlertyp GR.8 „Falsches Verb (Zeit- 
form, Komposition, Person)“ und der Differenz in der Inhaltsqualität; ein signifi- 
kanter mittlerer negativer Zusammenhang zwischen der Differenz im Fehlertyp 
GR.10 „Wortstellungsfehler“ und der Differenz in der Inhaltsqualität; sowie ein si- 
gnifikanter schwacher negativer Zusammenhang zwischen der Differenz in den 
Fehlertypen LX.3 „Wort ausgelassen“, LX.4 „Zusätzliches Wort eingefügt“, GR.7 
„Falsche Wortart / Wortklasse“ und SM.12 „Falsche Wahl“ einzeln und der Diffe- 
renz in der Inhaltsqualität. (siehe Tabelle 5.115) 

Weitere Korrelationen zwischen anderen einzelnen Fehlertypen und der Qua- 
lität konnten nicht erwiesen werden. 

Diese signifikanten negativen Korrelationen deuten darauf hin, dass mit dem 
Rückgang der Fehleranzahl der genannten Fehlertypen nach KS ein Qualitätsan- 
stieg verzeichnet wurde. In Tabelle 5.114 wurden die grammatischen Fehlertypen 
GR.8 „Falsches Verb“ und GR.10 „Wortstellung“ in ‚is... to choose‘ eliminiert, dar- 
aufhin stieg die Stilqualität um 1,63 Punkte und die Inhaltsqualität um 1,75 Punkte 
auf der Likert-Skala. In Tabelle 5.116 wurde nur der Verbformfehler (GR.8) in ‚re- 
place‘ korrigiert, nachdem der Imperativ anstelle des Passiversatzes verwendet 
wurde. 

Daraufhin stiegen die Stilqualität um 1,00 Punkte und die Inhaltsqualität um 
0,75 Punkte auf der Likert-Skala. 
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Tabelle 5.115: „Passiversatz verm“ - Korrelation zwischen den Fehler- 


typen und der Qualitat 

N D p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 97 ‚023 —,230 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 97 <,001 —,448 
fügt“ 
Diff. der Anzahl der GR.7 „Falsche Wortart“ 97 ‚0224 —,229 
Diff. der Anzahl der GR.8 „Falsches Verb“ 97 <,001 —,617 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 97 <,001 —,438 
Diff. der Anzahl der SM.12 „Falsche Wahl“ 97 005 —,282 
Differenz CQ (nach KS — vor KS) 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 97 030 - ‚220 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 97 ‚005 — ‚286 
fügt“ 
Diff. der Anzahl der GR.7 „Falsche Wortart“ 97 ‚014 — ‚248 
Diff. der Anzahl der GR.8 „Falsches Verb“ 97 <,001 —,641 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 97 ‚001 —,324 
Diff. der Anzahl der SM.12 „Falsche Wahl“ 97 ‚008  — ‚267 
Differenz allg. Q (nach KS — vor KS) 
Diff. der Anzahl der LX.3 „Wort ausgelassen“ 97 ‚031 — ‚219 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 97 <,001 —,367 
fügt“ 
Diff. der Anzahl der GR.7 „Falsche Wortart“ 97 ‚016 — ,244 
Diff. der Anzahl der GR.8 „Falsches Verb“ 97 <,001 —,681 
Diff. der Anzahl der GR.10 „Wortstellungsfehler“ 97 <,001 —,418 


Diff. der Anzahl der SM.12 „Falsche Wahl“ 97 ‚004 — ‚287 


*In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitätsvariable signifikant korrelieren. 


p: Signifikanz p: Korrelationskoeffizient 
schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Tabelle 5.116: Beispiel 74 


Vor-KS Die Bedienungsanleitung ist im Falle des Verlustes zu ersetzen. 


HMU Bing The operating instructions are to replace in case of loss. 


Nach-KS Ersetzen Sie die Bedienungsanleitung im Falle des Verlustes. 


HMU Bing Replace the operating instructions in case of loss. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.8.5.2 Vergleich der Qualität auf Regel- und MÜ-Systemebene 


Wie Abbildung 5.111 zeigt, nahmen nicht bei allen Systemen die Stil- und Inhalts- 
qualität nach der Anwendung der KS-Regel zu. 


Regel- und Systemebene - Vergleich der Mittelwerte vor-KS vs. nach-KS sn pos née: 
Natel 


Stilqualitat - Inhaltsqualität ee CQ rach KS 


KS Reget Passiver satz vermeiden 


T T T T T 
Bing Google Lucy Sot Systran 


MU-System 


Abbildung 5.111: „Passiversatz verm“ - Mittelwerte der Qualität vor vs. 
nach KS bei den einzelnen MÜ-Systemen 


Die Stilqualität stieg bei dem SMÜ-System SDL (+ 37,6 %), dem HMÜ-System 
Bing (+ 24,4 %) sowie dem HMÜ-System Systran (+ 5,2 %) signifikant, während 
die Inhaltsqualität nur bei Bing (+ 33,4 %) und SDL (+ 33,5 %) signifikant zunahm 
(Tabelle 5.117). 
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Tabelle 5.117: „Passiversatz verm“ - Signifikanz der Qualitätsverände- 
rung bei den einzelnen MÜ-Systemen 


Differenz SQ Differenz CQ Differenz allg. Q 
(nach KS — vor KS) (nach KS — vor KS) (nach KS — vor KS) 
N p z N p z N p Z 
Bing 18 001 —3,342 18 <,001 -3,519 18 <,001 - 3,616 
Google 21 ‚104 — 1,624 21 ‚774 — ,287 21 ‚229 = — 1,203 
Lucy 18 819 -,229 18 205 -1,268 18 498  —,678 
SDL 21 <,001 —4,018 21 ‚003 —2,958 21 <,001 -3,702 
Systran 19 041 —2,045 19 ol —,997 19 034 — 2,118 
p: Signifikanz z: Teststatistik nicht signifikant (p > 0,05) 


Wie die Aufteilung der Annotationsgruppen zeigte, waren 96 % der Uberset- 
zungen (23 von 24 Satzen) des NMU-Systems Google Translate sowohl vor als 
auch nach der Regelanwendung (Annotationsgruppe RR) richtig. Entsprechend 
ist zu erwarten, dass das Qualitätsniveau sich nicht verändert. 

Bei dem RBMÜ-System Lucy waren die Ergebnisse der Annotationsgruppen 
(Abbildung 5.105) sehr gemischt (d. h. die Zahlen der Gruppen FF, RF und RR 
fielen ähnlich hoch aus), daher konnte keine signifikante Veränderung in der 
Qualität nachgewiesen werden. 


5.4.8.5.3 Korrelation zwischen den Fehlertypen und der Qualität auf Regel- und 
MÜ-Systemebene 


Anhand der Spearman-Korrelationsanalyse erwies sich bei dem HMÜ-System 
Bing ein signifikanter starker negativer Zusammenhang zwischen den gramma- 
tischen Fehlertypen GR.8 „Falsches Verb (Zeitform, Komposition, Person)“ und 
GR.10 „Wortstellungsfehler“ einzeln und der Stilqualität sowie ein signifikanter 
starker negativer Zusammenhang zwischen GR.8 und der Inhaltsqualität (Tabel- 
le 5.118). 

Bei dem RBMÜ-System Lucy erwies sich nur eine signifikante starke negati- 
ve Korrelation zwischen Fehlertyp GR.8 „Falsches Verb“ und der Inhaltsqualität 
(Tabelle 5.118). 
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Bei dem SMU-System SDL erwies sich nur eine signifikante starke negative 
Korrelation zwischen Fehlertyp GR.7 „Falsche Wortart / Wortklasse“ und der In- 
haltsqualitat (Tabelle 5.118). 

Bei dem HMU-System Systran erwies sich eine signifikante starke negative 
Korrelation zwischen dem lexikalischen Fehlertyp LX.4 ,Zusatzliches Wort ein- 
gefügt“ und der Stilqualität sowie eine signifikante starke negative Korrelation 
zwischen den Fehlertypen LX.4 „Zusätzliches Wort eingefügt“ und GR.10 „Wort- 
stellungsfehler“ einzeln und der Inhaltsqualität (Tabelle 5.118). 


5.4.8.6 Vergleich der MÜ-Qualität mit vs. ohne die Konstruktion „sein + zu 
+ Infinitiv“ auf Annotationsgruppenebene 


Die Stil- und Inhaltsqualität” der MU stiegen in den Annotationsgruppen FF und 
FR. In der Annotationsgruppe RR stieg nur die Stilqualitat, wahrend die Inhalts- 
qualität unverändert blieb. In der Annotationsgruppe RF sanken beide Qualitats- 
werte. (siehe Abbildung 5.112) 


Annotationsgruppenebene - Vergleich der Mittelwerte vor-KS vs. nach-KS eme 


I Mitelw. 
Stilqualitat - Inhaltsqualität - Allgemeine Qualität 


KS Reget: Passiver satz vermeiden 


Annotationsgruppe 


Abbildung 5.112: „Passiversatz verm“ - Mittelwerte der Qualität vor vs. 
nach KS auf Annotationsgruppenebene 


Nicht alle genannten Qualitätsveränderungen waren statistisch signifikant. Ta- 
belle 5.119 zeigt die Signifikanz der Veränderungen der Qualitätswerte jeder An- 
notationsgruppe. 


Definitionen der Qualität unter §4.5.5.1. 
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5 Quantitative und qualitative Analyse der Ergebnisse 


Tabelle 5.119: „Passiversatz verm“ - Signifikanz der Qualitätsverände- 
rung auf Annotationsgruppenebene 


N p Z 
(Signifikanz) (Teststatistik) 
Annotationsgruppe FF 
Differenz SQ (nach KS — vor KS) 20 ‚003 — 3,021 
Differenz CQ (nach KS — vor KS) 20 ‚136 — 1,492 
Differenz allg. Q (nach KS — vor KS) 20 ‚012 — 2,505 
Annotationsgruppe FR 
Differenz SQ (nach KS — vor KS) 27 < ‚001 — 4,463 
Differenz CQ (nach KS — vor KS) 27 < ,001 — 4,544 
Differenz allg. Q (nach KS — vor KS) 27 < ,001 — 4,542 
Annotationsgruppe RF 
Differenz SQ (nach KS — vor KS) 13 ‚016 — 2,417 
Differenz CQ (nach KS — vor KS) 13 ‚007 — 2,680 
Differenz allg. Q (nach KS — vor KS) 13 ,001 — 3,192 
Annotationsgruppe RR 
Differenz SQ (nach KS — vor KS) 37 < ,001 — 3,737 
Differenz CQ (nach KS — vor KS) 37 22 — ‚640 
Differenz allg. Q (nach KS — vor KS) 37 ,002 — 3,167 


In der Gruppe FF (Ubersetzung mit und ohne Passiversatz falsch) stieg die Stil- 
qualität signifikant (z (N = 20) = — 3,021 / p = ,003) und die Inhaltsqualität nicht 
signifikant (z (N = 20) = — 1,492 / p = ,136). Der Qualitätsanstieg in dieser Grup- 
pe zeigt, dass die Bewerter die Fehler bei der Verwendung eines Passiversatzes 
(vor KS) schwerwiegender als die bei der Vermeidung eines Passiversatzes (nach 
KS) aufgetretenen Fehler wahrnahmen. Dieses Ergebnis wird außerdem durch 
den Analysefaktor 4 „Korrelation zwischen den Fehlertypen und der Qualität“ 
(§5.4.8.5) ersichtlich. Tabelle 5.120 verdeutlicht diesen unterschiedlichen Schwe- 
regrad der aufgetretenen Fehler in den beiden Szenarien, vor vs. nach der Regel- 
anwendung. 

Bei der Verwendung eines Passiversatzes (vor KS) trat der grammatische Feh- 
ler GR.8 „Falsches Verb“ (in ‚are to lock‘) auf. Die Bewerter fanden die Uberset- 
zung irreführend und begründeten dies wie folgt: are to lock' sounds like the 
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Tabelle 5.120: Beispiel 75 


Vor-KS Ist ein mehrstufiges Modul parametriert, so sind die externen 
Kontakte zu verriegeln. 


HMU Bing If a multi-stage module is parameterized, the external contacts 
are to lock. 


Nach-KS Ist ein mehrstufiges Modul parametriert, verriegeln Sie die ex- 
ternen Kontakte. 


HMÜBing Ifa multi-stage module is parameterized, you lock the external 
contacts. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


contacts will lock themselves. I suggest are to be locked' instead”. Ein anderer 
Bewerter empfahl die Verwendung des Imperativs und kommentierte: „The text 
does not make clear that the reader should act at all“. Bei der Verwendung eines 
Imperativs (nach KS) trat der lexikalische Fehler LX.4 „Zusätzliches Wort einge- 
fügt“ (in ‚you‘) auf. Die Bewerterkommentare zeigen, dass der Imperativ durch 
diesen Fehler nicht klar war und somit der Stil den Leser nicht adäquat zum Han- 
deln anregen konnte. Ein Bewerterkommentar lautete „'you' should be deleted to 
keep the sentence in the imperative and motivate the user to act“. Durch die ver- 
gebenen Scores in den beiden Szenarien wird ersichtlich, dass die Bewerter den 
Fehlertyp im vor-KS-Szenario schwerwiegender als im nach-KS-Szenario emp- 
fanden, denn die Stil- und Inhaltsqualität stiegen nach KS um + 0,25 Punkte bzw. 
+ 1,50 Punkte auf der Likert-Skala. 

Erwartungsgemäß nahmen die Stil- und Inhaltsqualität in der Gruppe FR (MÜ 
falsch vor KS; richtig nach KS) zu und sanken in der Gruppe RF (MÜ richtig 
vor KS; falsch nach KS) signifikant (siehe Tabelle 5.119), wobei die Qualitätsdif- 
ferenz in der Gruppe FR deutlich höher (Diff_SQ + 39,9 %; Diff_CQ + 48,0 %) als 
in der Gruppe RF ausfiel (Diff_SQ — 8,2 %; Diff_CQ — 9,7 %). Gleichzeitig zeig- 
te die Aufteilung der Annotationsgruppen (siehe §5.4.8.3), dass die Gruppe FR 
(28 %) mehr als doppelt so häufig vertreten war als die Gruppe RF (13 %), siehe 
Abbildung 5.104. Auf Basis dieses Vergleichs der Gruppen FR und RF lässt sich 
schlussfolgern, dass der potenzielle Qualitätsgewinn bei der Vermeidung eines 
Passiversatzes (Anwendung der KS-Regel) sehr hoch ausfällt. 

In der Gruppe RR (Übersetzung mit und ohne Passiversatz richtig) stieg die Stil- 
qualität signifikant (z (N = 37) = — 3,737 / p < ‚001), während die Inhaltsqualität 
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5 Quantitative und qualitative Analyse der Ergebnisse 


unverändert blieb. Dieses Ergebnis ist nachvollziehbar, denn dank einer richti- 
gen Übersetzung eines Passiversatzes (vor KS) oder eines Imperativs (nach KS) 
sind beide inhaltlich verständlich und präzise. Aus stilistischer Sicht fanden die 
Bewerter jedoch die Verwendung des Passiversatzes weniger geeignet für die 
Satzintention. Tabelle 5.121 ist für einen Beispielsatz aus der Gruppe RR. Hierbei 
fanden die Bewerter den Stil bei der Verwendung des Imperativs (nach KS) geeig- 
neter. Entsprechend stieg die Stilqualität um + 0,50 Punkte auf der Likert-Skala, 
während die Inhaltsqualität unverändert blieb. 


Tabelle 5.121: Beispiel 76 


Vor-KS Das Kaufdatum ist durch eine Kaufquittung zu belegen. 


GNMÜ The purchase date is to be confirmed by a purchase receipt. 
Nach-KS Belegen Sie das Kaufdatum durch eine Kaufquittung. 


GNMÜ Confirm the purchase date with a purchase receipt. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


5.4.8.7 Vergleich der AEM-Scores mit vs. ohne die Konstruktion „sein + zu 
+ Infinitiv“ sowie die Korrelation zwischen den AEM-Scores und der 
Qualität 


Der Vergleich der AEM-Scores mit und ohne Verwendung des Passiversatzes 
zeigte sowohl mit TERbase als auch mit hLEPOR eine deutliche Verbesserung 
der AEM-Scores. 

Der Mittelwert der Differenz (nach KS — vor KS) im AEM-Score pro Satz lag 
für TERbase bei ‚112 (SD = ,248) und für die hLEPOR bei ‚051 (SD = ,152) mit einem 
95%-Konfidenzintervall (Bootstrapping mit 1000 Stichproben), siehe Abbildung 
5.113. Die Differenzen (nach KS — vor KS) in TERbase und hLEPOR erwiesen sich 
als signifikant (z (N = 97) = — 4,175 / p < ,001) bzw. (z (N = 97) = — 3,396 / p = ,001). 
Dieses Ergebnis deutet darauf hin, dass nach der Verwendung des Imperativs 
(nach KS) weniger Edits erforderlich waren. 


5.4.8.7.1 Korrelation zwischen den Differenzen in den AEM-Scores und der Qua- 
lität 

Nach der Anwendung der KS-Regel stieg die Qualität signifikant (siehe §5.4.8.5). 

Mithilfe des Spearman-Korrelationstests erwies sich ein signifikanter mittlerer 
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‚1122 


0.0621 den 
0.1622 


0,0200 
0,0810 


Differenz TERbase (nach KS - vor KS) 
«u Differenz hLEPOR (nach KS - vor KS) 


Differenz = AEM-Score nach KS minus AEM-Score vor KS 


Abbildung 5.113: „Passiversatz verm“ - Mittelwert der Differenz der 
AEM-Scores 


positiver Zusammenhang zwischen den Differenzen der AEM-Scores von TER- 
base und hLEPOR und der Differenz der allgemeinen Qualität. Nach der Verwen- 
dung des Imperativs anstelle des Passiversatzes (nach KS) verbesserten sich die 
Scores der beiden AEM-Score-Metriken und die Qualität nahm zu. 


5.4.8.8 Analyse der siebten Regel - Validierung der Hypothesen 


Um die vorgestellten Ergebnisse auf die Forschungsfragen der Studie zurück- 
zuführen, listet dieser Abschnitt die zugrunde liegenden Hypothesen der For- 
schungsfragen zusammen mit einer Zusammenfassung der Ergebnisse der sieb- 
ten analysierten Regel in tabellarischer Form auf. Für einen schnelleren Überblick 
steht (+) für eine Verbesserung bzw. einen Anstieg z. B. im Sinne eines Quali- 
tätsanstiegs, verbesserter AEM-Scores oder eines Anstiegs der Fehleranzahl; (—) 


steht für einen Rückgang; die grüne Farbe symbolisiert eine signifikante Verän- 


derung; neg steht für eine negative Korrelation und pos für eine positive Korrelati- 
on; <<>> steht für eine starke Korrelation und <> für eine mittlere Korrelation.’* 


5!Schwache Korrelationen werden in dieser Übersicht nicht angezeigt. 
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Tabelle 5.122: ,Passiversatz verm“ - Korrelation zwischen den Diffe- 
renzen der AEM-Scores und den Qualitatsdifferenzen 


N Signifikanz Korrelations- Stärke 

(p) koeffizient der 

(p) Korrelation 

Korrelation zw. Differenz 97 ‚002 311 mittlerer 

in der allg. Qualitat und Zusammen- 

Differenz des TERbase- hang 
Scores (nach KS — vor KS) 

Korrelation zw. Differenz 97 < ‚001 ‚473 mittlerer 

in der allg. Qualität und Zusammen- 

Differenz des hLEPOR- hang 


Scores (nach KS — vor KS) 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Regel 7: Konstruktionen mit „sein + zu + Infinitiv“ vermeiden 


Erster Analysefaktor: Vergleich der Fehleranzahl mit vs. ohne die Konstrukti- 
on „sein + zu + Infinitiv“ 


Fragestellung: Gibt es einen Unterschied in der Fehleranzahl nach der Anwen- 
dung der KS-Regel im Vergleich zu vor der Anwendung? 


HO - Es gibt keinen Unterschied in der Fehleranzahl vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in der Fehleranzahl vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


Auf Regelebene: 
HO wurde abgelehnt und somit H1 bestätigt. Anz.F. (—) 
Die Fehleranzahl sank signifikant, nachdem die Passiversatzkon- 
struktion als Imperativ umformuliert wurde. 
Auf Regel- und MÜ-Systemebene: 
Bei Bing und SDL sank die Fehleranzahl nach KS signifikant. Bi (—) 
SD (-) 
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Bei Lucy und Systran stieg die Fehleranzahl nach KS signifikant. Lu (+) 
Sy (+) 


Bei Google gab es nur einen Fehler bei jedem Szenario. Go (=) 


Zweiter Analysefaktor 


Abbildung 5.114: Aufteilung der Annotationsgruppen auf Regelebene 


Dritter Analysefaktor: Vergleich der Fehlertypen mit vs. ohne die Konstrukti- 
on „sein + zu + Infinitiv“ 


Fragestellung: Beinhaltet die MÜ bestimmte Fehlertypen vor bzw. nach der An- 
wendung der KS-Regel? 


HO - Es gibt keinen Unterschied in der Häufigkeit der einzelnen Fehlertypen 
vor vs. nach der Anwendung der KS-Regel. 


H1- Es gibt einen Unterschied in der Häufigkeit der einzelnen Fehlertypen vor 
vs. nach der Anwendung der KS-Regel. 


Resultat 


Auf Regelebene: 

H1 wurde für vier Fehlertypen bestätigt. LX.4 (+) 
Die Fehleranzahl von LX.4 „Zusätzliches Wort eingefügt“ stieg 
signifikant. 


Die Fehleranzahl von GR.8 „Falsches Verb“, GR.9 „Kongruenzfeh- GR.8 (—) 
ler“ und GR.10 „Wortstellungsfehler“ sanken nach KS signifikant. GR.9 (—) 
GR.10 (—) 
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lı Bing in Google lı Lucy TB ft Systran 


Abbildung 5.115: Aufteilung der Annotationsgruppen auf Regel- und 
MU-Systemebene 


Auf Regel- und MU-Systemebene: 
Bei Lucy und Systran stieg die Fehleranzahl von LX.4 „Zusätzli- LX.4 (+): 
ches Wort eingefügt“ nach KS signifikant. Lu Sy 


Bei Bing und SDL sank die Fehleranzahl von GR.8 „Falsches Verb“ GR.8 (-): 
nach KS signifikant. BiSD 


Bei SDL sank die Fehleranzahl von GR.10 „Wortstellungsfehler“ GR.10 (-): 
nach KS signifikant. SD 


Alle weiteren Veranderungen waren nicht signifikant. 


Vierter Analysefaktor: Vergleich der MÜ-Qualität mit vs. ohne die Konstruk- 
tion „sein + zu + Infinitiv“ 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität der MÜ 
der KS-Stelle nach der Anwendung der KS-Regel im Vergleich zu vor der 
Anwendung? 
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HO - Es gibt keinen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


H1- Es gibt einen Qualitätsunterschied vor vs. nach der Anwendung der KS- 
Regel. 


Resultat 


Auf Regelebene: 

HO wurde abgelehnt und somit H1 bestätigt. SO (+) 

Sowohl die Stil- als auch die Inhaltsqualität stiegen signifi- CQ (+) 

kant nach Verwendung des Imperativs (nach KS). 

Auf Regel- und MU-Systemebene: 

Die Stil- und Inhaltsqualität stiegen bei Bing, und SDL signi- SQ (+): CQ (+): 
fikant, wobei bei Systran nur die Stilqualität signifikant zu- BiSD Bi 
nahm. Sy SD 


Alle weiteren Qualitätsveränderungen waren nicht signifi- 
kant. 


Fünfter Analysefaktor: Korrelation zwischen den Fehlertypen und der Quali- 
tät 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der Fehler- 
anzahl eines bestimmten Fehlertyps (Fehleranzahl nach KS — vor KS) und 
der Differenz der Stil- bzw. Inhaltsqualität (Qualität nach KS — vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der Fehleranzahl 
eines bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsquali- 
tät. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der Fehleranzahl ei- 
nes bestimmten Fehlertyps und der Differenz der Stil- bzw. Inhaltsqualität. 


Resultat 


Auf Regelebene: 

H1 wurde für drei Fehlertypen bestätigt. neg GR.8 <<>> SQ 
Es bestand ein signifikanter starker negativer Zusam- neg GR.8 <<>> CQ 
menhang zwischen der Differenz der Fehleranzahl des 

GR.8 „Falsches Verb“ und der Differenz der Stil- und In- 

haltsqualität. 
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Es bestand ein signifikanter mittlerer negativer Zusam- 
menhang zwischen der Differenz der Fehleranzahl des 
LX.4 „Zusätzliches Wort eingefügt“ und der Differenz 
der Stilqualität sowie ein signifikanter mittlerer negati- 
ver Zusammenhang zwischen der Differenz der Fehler- 
anzahl des GR.10 „Wortstellungsfehler“ und der Diffe- 
renz der Stil- und Inhaltsqualität. 

Auf Regel- und MÜ-Systemebene: 

Bei Bing bestand ein signifikanter starker negativer Zu- 
sammenhang zwischen der Differenz der Fehleranzahl 
des GR.8 „Falsches Verb“ und der Differenz der Stil- und 
Inhaltsqualität sowie ein signifikanter starker negativer 
Zusammenhang zwischen der Differenz der Fehleran- 
zahl des GR.10 „Wortstellungsfehler“ und der Differenz 
der Stilqualität. 


Bei Lucy bestand ein signifikanter starker negativer Zu- 
sammenhang zwischen der Differenz der Fehleranzahl 
des GR.8 „Falsches Verb“ und der Differenz der Inhalts- 
qualität. 


Bei SDL bestand ein signifikanter starker negativer Zu- 
sammenhang zwischen der Differenz der Fehleranzahl 
des GR.7 „Falsche Wortart“ und der Differenz der Inhalts- 
qualität. 


Bei Systran bestand ein signifikanter starker negativer 
Zusammenhang zwischen der Differenz der Fehleran- 
zahl des LX.4 „Zusätzliches Wort eingefügt“ und der Dif- 
ferenz der Stil- und Inhaltsqualität sowie ein signifikan- 
ter starker negativer Zusammenhang zwischen der Dif- 
ferenz der Fehleranzahl des GR.10 „Wortstellungsfehler“ 
und der Differenz der Inhaltsqualität. 


Alle weiteren Korrelationen waren nicht signifikant. 


neg LX.4 <> SQ 


neg GR.10 <> SO 
neg GR.10 <> CO 


Bi 

neg GR.8 <<>> SQ 

neg GR.8 <<>> CQ 
neg GR.10 <<>> SQ 


Lu 
neg GR.8 <<>> CQ 


SD 
neg GR.7 <<>> CQ 


Sy 
neg LX.4 <<>> SQ 
neg LX.4 <<>> CQ 
neg GR.10 


CQ 


<<>> 


Sechster Analysefaktor: Vergleich der MU-Qualitat mit vs. ohne die Konstruk- 
tion „sein + zu + Infinitiv“ auf Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in der Stil- und Inhaltsqualität bei den 
einzelnen Annotationsgruppen nach der Anwendung der KS-Regel im Ver- 


gleich zu vor der Anwendung? 
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HO - Bei den Annotationsgruppen gibt es keinen Qualitätsunterschied vor vs. 
nach der Anwendung der KS-Regel. 


H1- Bei den Annotationsgruppen gibt es einen Qualitätsunterschied vor vs. nach 
der Anwendung der KS-Regel. 


Resultat 


H1 wurde nur zum Teil bestatigt: SQ (+) 
Bei der Annotationsgruppe FF stieg die Stilqualitat signifikant CQ (+) 
und die Inhaltsqualitat nicht signifikant. 


Bei der Annotationsgruppe FR stiegen die Stil- und Inhaltsquali- SQ (+) 
tat signifikant. CQ (+) 


Bei der Annotationsgruppe RF sanken die Stil- und Inhaltsquali- SQ (—) 
tat signifikant. CQ (-) 


Bei der Annotationsgruppe RR stieg die Stilqualitat signifikant SQ (+) 
und die Inhaltsqualitat blieb unverändert. CQ (=) 


Siebter Analysefaktor: Vergleich der AEM-Scores mit vs. ohne die Konstrukti- 
on „sein + zu + Infinitiv“ auf Annotationsgruppenebene 


Fragestellung: Gibt es einen Unterschied in den AEM-Scores von TERbase bzw. 
hLEPOR nach der Anwendung der KS-Regel im Vergleich zu vor der An- 
wendung? 


HO - Es gibt keinen Unterschied in den AEM-Scores vor vs. nach der Anwen- 
dung der KS-Regel. 


H1- Es gibt einen Unterschied in den AEM-Scores vor vs. nach der Anwendung 
der KS-Regel. 


Resultat 


H0 wurde abgelehnt und somit H1 bestätigt. TERbase (+) 
AEM-Scores sowohl von TERbase als auch von hLEPOR ver- hLEPOR (+) 
besserten sich nach Verwendung des Imperativs (nach KS) 

signifikant. 
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Achter Analysefaktor: Korrelation zwischen den Differenzen der AEM-Scores 
und der Qualität 


Fragestellung: Besteht ein Zusammenhang zwischen der Differenz der AEM- 
Scores von TERbase bzw. hLEPOR (Mittelwert der AEM-Scores nach KS 
— vor KS) und der Differenz der allgemeinen Qualität (Qualität nach KS — 
vor KS)? 


HO - Es besteht kein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


H1- Es besteht ein Zusammenhang zwischen der Differenz der AEM-Scores 
und der Differenz der allgemeinen Qualität. 


Resultat 


HO wurde abgelehnt und somit H1 bestätigt. pos TERbase <> Q 
Es bestand ein signifikanter mittlerer positiver Zusam- pos hLEPOR <> Q 
menhang zwischen der Differenz der AEM-Scores von 

TERbase und hLEPOR und der Differenz der allgemei- 

nen Qualitat. 


5.4.9 ACHTE REGEL: Uberfliissige Prafixe vermeiden 
5.4.9.1 Uberblick 


Im Folgenden wird die KS-Regel „Überflüssige Präfixe vermeiden“ kurz beschrie- 
ben.” Zudem wird zusammenfassend und anhand von Beispielen demonstriert, 
wie die Regel bei der Analyse angewendet wurde. Anschließend wird die Auftei- 
lung der Testsätze im Datensatz dargestellt: 


Beschreibung der KS-Regel: Überflüssige Präfixe vermeiden (tekom-Regel-Nr. 
L 114) 


Nach dieser Regel sollen Verben mit Präfixen vermieden werden, wenn das 
Verb ohne Präfix die gleiche Bedeutung hat (tekom 2013: 111). 


Begründung: Die Kürzung vereinfacht den Satz und reduziert Segmentva- 


rianten bei der Übersetzung mithilfe eines Systems (ebd.). 


Umsetzungsmuster: 
Vor KS: Verb mit Präfix 
Nach KS: Eliminierung des Präfixes 


Die für diese Regel relevanten Kontraste im Sprachenpaar DE-EN sind unter §4.5.2.3 erörtert. 
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KS-Stelle 
Vor KS: Verb mit Prafix (trennbare und untrennbare Verben) 
Nach KS: Verb ohne Präfix 


Beispiele 


Überprüfen Sie, ob ausreichend Wasser im Wassertank vorhanden ist. 


Prüfen Sie, ob ausreichend Wasser im Wassertank vorhanden ist. 
Wählen Sie die Option "Software von einer bestimmten Liste installieren" 


aus. 
Wählen Sie die Option "Software von einer bestimmten Liste installieren“. 


Aufteilung der Testsätze: Die Platzierung des Präfixes bei trennbaren Verben 
kann den Schwierigkeitsgrad bzw. die Richtigkeit der Übersetzung beein- 
flussen, daher deckt der Datensatz Folgendes ab: 15 Sätze, in denen das 
Präfix getrennt am Satzende bzw. Nebensatzende erscheint sowie 9 Sät- 
ze mit untrennbaren Verben oder trennbaren Verben, in denen das Präfix 
ungetrennt vom Verb auftritt. 


Im Folgenden werden die Ergebnisse der einzelnen Analysefaktoren darge- 
stellt. 


5.4.9.2 Vergleich der Fehleranzahl mit vs. ohne überflüssige Präfixe 


Die Fehleranzahl sank deutlich um 35,5 % von 45 Fehlern bei der Verwendung 
von überflüssigen Präfixen (M = ‚38 / SD = ‚649 / N = 120) auf 29 Fehler bei der 
Vermeidung von überflüssigen Präfixen (M = ‚24 / SD = 550 / N = 120), siehe 
Abbildung 5.116. Der Mittelwert der Differenz (nach KS — vor KS) der Fehleran- 
zahl pro Satz lag somit bei — ‚13 (SD = ,517) mit einem 95%-Konfidenzintervall 
zwischen einem Minimum von — ‚23 (SD = ,401) und einem Maximum von — ‚04 
(SD = ,637) (Bootstrapping mit 1000 Stichproben), siehe Abbildung 5.117. Die Dif- 
ferenz (nach KS — vor KS) der Fehleranzahl erwies sich als signifikant (z (N = 
120) = — 2,717 / p = ,007). 

Insbesondere trennbare Verben waren oft schwer zu parsen; abhängig von der 
Satzstruktur stehen die Präfixe in manchen Fällen am Ende des Satzes — weit 
entfernt vom Rest des Verbs. In solchen Fällen konnten mehrere Systeme den Satz 
zwar korrekt übersetzen, fügten aber am Satzende eine redundante Übersetzung 
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144 
1,37 
124 
100 F 1,14 
1.04 
094 
50; # 5 
29 = 074 
TT wei 29 
Al 0,57 15 
0 04-4 ‚375 28 
034 éi 
Anzahl der fehler um 
0,17 
innerh. KS vor KS SÉ 
Anzahl der Fehler r 
i I Anzahl der Fehler innerh. KS vor KS 
innerh. KS nach KS I Anzahl der Fehler innerh. KS nach KS 


Abbildung 5.116: „Überfl. Präfixe verm“ Abbildung 5.117: „Überfl. Präfixe verm“ 
— Fehlersumme vor vs. nach KS - Mittelwert der Fehleranzahl pro Satz 
vor vs. nach KS 


Tabelle 5.123: Beispiel 77 


Vor-KS Schicken Sie das Gerät zusammen mit dem Original- 
Kaufbeleg an nachstehende Adresse zu. 


HMÜ Systran Send the appliance together with the original receipt to the 
following address too. 


Nach-KS Schicken Sie das Gerät zusammen mit dem Original- 
Kaufbeleg an nachstehende Adresse. 


HMÜ Systran Send the appliance together with the original receipt to the 
following address. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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für das Präfix hinzu. In Tabelle 5.123 wurde ‚too‘ als Übersetzung von ‚zu‘ im 
Verb ‚zuschicken‘ zusätzlich hinzugefügt. 

Daher war die Anwendung der Regel in dieser Hinsicht sinnvoll. Rund 59 % (14 
von 24) der analysierten Sätze wurden vor der Regelanwendung von mindestens 
einem MÜ-System falsch übersetzt und mithilfe der Regel korrigiert. 


5.4.9.2.1 Vergleich der Fehleranzahl auf Regel- und MU-Systemebene 


Die Fehleranzahl nach der Umsetzung der KS-Regel sank bei allen Systemen (Ab- 
bildung 5.118): Im Allgemeinen war die Fehleranzahl relativ klein im Vergleich 
zu den anderen Regeln. 


— 64,0 % 
— 63,6 % 
12, 412 % 


10 F — 52,2% 
8 
8 
— 66,7% 
5 
A 
0 


Bing Google Lucy SDL Systran 


Summe 
ON 


EA 


Ip Anzahl der fehler innerh. KS vor KS 
li Anzahl der Fehler innerh. KS nach KS 


Signifikante Differenz vor vs. nach KS 


Abbildung 5.118: „Überfl. Prafixe verm“ - Summe der Fehleranzahl vor 
vs. nach KS bei den einzelnen MÜ-Systemen 


Signifikant war nur der Rückgang bei dem HMÜ-System Bing Mdiff = - 0,292; 
z (N = 24) = — 2,070 / p = ,038), siehe Abbildung 5.118. Bei den restlichen Syste- 
men betrug der Mittelwert der Differenz in der Fehleranzahl (nach KS — vor KS): 
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HMU-System Systran (Mdiff = — ,125); RBMU-System Lucy (Mdiff = — ,167); NMU- 
System Google Translate (Mdiff = — ,042); SMU-System SDL (Mdiff = — ,042). Im 
Vergleich zu Systran in Tabelle 5.123 konnten SDL und Google Translate beide 
Szenarien fehlerfrei und identisch (als ,Check if there is sufficient water in the 
water tank‘) übersetzen. In den nächsten Abschnitten werden die aufgetretenen 
Fehlertypen sowie die Aufteilung der Annotationsgruppen näher erläutert. 


5.4.9.3 Aufteilung der Annotationsgruppen 


Die größte Annotationsgruppe stellte die Gruppe RR dar; die MÜ-Systeme konn- 
ten mehr als zwei Drittel der Sätze sowohl mit als auch ohne die überflüssigen 
Präfixe fehlerfrei übersetzen (Abbildung 5.119). An der zweiten Stelle kommt die 
Gruppe FF, die relativ klein war (ca. 16 %). Die Gruppe FR (ca. 13 %) zeigt, dass 
die Regel die MÜ-Systeme dabei unterstützen konnte, aufgetretene Fehler zu be- 
heben. Zum Schluss folgt die Gruppe RF mit einem sehr kleinen Anteil von ca. 
3% (Abbildung 5.119). 


FF 


FR ` 


RF 
RR 


Abbildung 5.119: „Überfl. Präfixe verm“ - Aufteilung der Annotations- 
gruppen 


Eine genaue Betrachtung der produzierten MÜ zusammen mit der Gruppen- 
aufteilung zeigt, dass (1) die meisten Sätze der Gruppe RR identisch übersetzt 
wurden. (2) Vergleicht man die Gruppen FR vs. RF, so kann man argumentie- 
ren, dass diese Regel überwiegend hilfreich war. Insbesondere bei den Präfix- 
Verb-getrennten Fällen konnte die Regel dazu beitragen, MÜ-Fehler zu beheben; 
so bestand die FR-Gruppe (vor KS) aus 13 Präfix-Verb-getrennten Fällen und 3 
Präfix-Verb-ungetrennten Fällen (d. h. Fälle mit untrennbaren Verben oder mit 
trennbaren Verben, die aber ungetrennt vom Präfix im Satz auftraten). 
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5.4.9.3.1 Vergleich der Aufteilung der Annotationsgruppen auf Regel- und MU- 
Systemebene 


Unter allen analysierten KS-Regeln kommt die Regel „Überflüssige Präfixe ver- 
meiden“ auf Platz eins mit den größten Prozentsätzen für die Gruppe RR bei al- 
len Systemen. Unter den MU-Systemen waren 88 % der Ubersetzungen von dem 
NMU-System Google Translate richtig sowohl mit als auch ohne die Verwen- 
dung der Präfixe. Diesem Ergebnis folgen das HMU-System Bing mit 71 %; das 
HMU-System Systran mit 67 %; das SMU-System SDL mit 63 % und zum Schluss 
das RBMU-System Lucy mit 50 %. Somit war die Gruppe RR die dominanteste 
Annotationsgruppe unter allen MU-Systemen. (siehe Abbildung 5.120) 

Die zweitgrößte Gruppe war FF: Am höchsten war sie bei SDL mit einem Vier- 
tel seiner MÜ repräsentiert (gefolgt von Lucy mit 17 %). Bei den anderen drei 
Systemen (Bing, Google Translate und Systran) betrug der Anteil dieser Gruppe 
13 %. Übersetzungen, die mit überflüssigen Präfixen falsch waren und nach der 
Regelanwendung korrigiert wurden (Gruppe FR), kamen bei allen Systemen mit 
Ausnahme des NMÜ-Systems Google Translate vor. Zum Schluss folgt die klein- 
ste Gruppe (RF), die nur für drei Systeme relevant war, nämlich Lucy, SDL und 
Systran. (siehe Abbildung 5.120) In Tabelle 5.124 vergleichen wir den Output der 
Gruppen RR und FR dreier Systeme (Systran, Bing und Lucy). 


Tabelle 5.124: Beispiel 78 


Vor-KS Speichern Sie die angezeigten Werte lokal auf der Festplatte 
ab. 


HMÜ Systran Store the displayed values locally on the hard disk. 
HMÜ Bing Locally, storing the displayed values on the hard disk. 
RBMÜLucy Save the displayed values locally on the hard disk. 


Nach-KS Speichern Sie die angezeigten Werte lokal auf der Festplatte. 


HMÜ Systran Store the displayed values locally on the hard disk. 
HMÜ Bing Save the displayed values locally on the hard disk. 
RBMU Lucy Store the displayed values locally on the hard disk. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Systran und Lucy konnten den Satz mit und ohne überflüssige Präfixe fehler- 
frei übersetzen (Gruppe RR). Bei Bing hingegen wurde das Verb mit Präfix (vor 
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25 y 


17,5% 
21 


20 |- 


13,3% 
12,5%16 


Anzahl 


13%13%17% 25%13% 17% = 25% 8% 17% 8% 4% 4% 71% 88%50%63%67 % 


FF FR : RF RR 
Annotationsgruppe 


lı Bing lı Google lı Lucy lısoLlı Systran 


Die oben angezeigten Prozentzahlen sind für alle Systeme, d. h. systemübergreifend, (N = 120) 
berechnet. 


Die untenstehenden Prozentzahlen sind auf Systemebene (N = 24) berechnet. 


Abbildung 5.120: „Überfl. Präfixe verm“ - Aufteilung der Annotations- 
gruppen bei den einzelnen MÜ-Systemen 
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KS) falsch übersetzt und falsch platziert. Erst nach der Regelanwendung konn- 
ten die beiden Fehler behoben werden (Gruppe FR). Die Fehlertypen unter dieser 
Regel werden im folgenden Abschnitt diskutiert. 


5.4.9.4 Vergleich der Fehlertypen mit vs. ohne überflüssige Präfixe 


Nach Anwendung dieser Regel sank die Fehleranzahl bei dem Fehlertyp LX.4 
„Lexik - Zusätzliches Wort eingefügt“ von 9 auf 1 (— 88,8 % / Mv = ‚08 / SDv = 
‚264 / Mn = ‚01/ SDn = ‚091 / N = 120), siehe Abbildung 5.121. Dieser Unterschied 
in der Fehleranzahl erwies sich als signifikant (p = ‚008 / N = 120). Bei trennbaren 
Verben steht in manchen Fällen das Präfix am Satzende (vor KS). Hierbei kam es 
bei einigen Systemen zu einem lexikalischen Fehler, da das Präfix losgelöst vom 
Satz übersetzt wurde. In solchen Fällen wurde durch das Vermeiden der überflüs- 
sigen Präfixe der Fehler behoben (nach KS). Folgende Beispiele beleuchten diesen 
Fehlertyp: In Tabelle 5.125 übersetzte Systran ‚aus‘ in ‚auswählen‘ zusätzlich am 
Satzende als ‚out‘. 


Tabelle 5.125: Beispiel 79 


Vor-KS Wählen Sie die Option "Software von einer bestimmten Liste 
installieren" aus. 


HMÜ Systran Select the option "Install software from a specific list" out. 


Nach-KS Wählen Sie die Option "Software von einer bestimmten Liste 
installieren". 


HMÜ Systran Select the option "Install software from a specific list". 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Ebenfalls übersetzte Lucy - in Tabelle 5.126 - ‚ein‘ in ‚einschicken‘ losgelöst 
vom Verb als ‚one‘. 

Dieser Fehler beeinträchtigte die MU-Qualitat, wie unter §5.4.9.5 demonstriert. 
Bei allen anderen Fehlertypen veränderte sich die Fehleranzahl im Vergleich zu 
nach der Umsetzung der Regel nicht deutlich (Abbildung 5.121). 


5.4.9.4.1 Vergleich der Fehlertypen auf Regel- und MÜ-Systemebene 


Eine genauere Untersuchung der Fehlertypen bei den verschiedenen MÜ-Syste- 
men zeigt (Abbildung 5.122), dass die Fehleranzahl der einzelnen Fehlertypen auf 
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"Die X-Achse ist folgendermaßen zu lesen: Jeder Fehlertyp wird anhand von zwei Balken 
abgebildet. Der erste Balken repräsentiert die Summe der Fehler vor KS und der zweite die 
Summe der Fehler nach KS, somit steht z. B. „OR_1.v“ für ,OR_1: orthografischer Fehler Nr. 1“ und 
„v: vor KS“; ,OR_1.n“ wäre entsprechend das Pendant zu „OR_1.v“ für das nach-KS-Szenario („n“). 
"*Signifikante Differenz vor vs. nach KS 

OR.1: Orthografie - Zeichensetzung 

OR.2: Orthografie - Großschreibung 

LX.3: Lexik - Wort ausgelassen 

LX.4: Lexik - Zusätzliches Wort eingefügt 

LX.5: Lexik - Wort unübersetzt geblieben (auf DE wiedergegeben) 

LX.6: Lexik - Konsistenzfehler 

GR.7: Grammatik - Falsche Wortart / Wortklasse 

GR.8: Grammatik - Falsches Verb (Zeitform, Komposition, Person) 

GR.9: Grammatik - Kongruenzfehler (Agreement) 

GR.10: Grammatik - Falsche Wortstellung 

SM.11: Semantik - Verwechslung des Sinns 

SM.12: Semantik - Falsche Wahl 

SM.13: Semantik - Kollokationsfehler 


Abbildung 5.121: „Überfl. Präfixe verm“ - Summe der Fehleranzahl der 
einzelnen Fehlertypen vor vs. nach KS 
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Tabelle 5.126: Beispiel 80 


Vor-KS Schicken Sie das Gerät originalverpackt an unsere Service- 
adresse ein. 


RBMU Lucy Please send the appliance in its original packaging to our ser- 
vice address one. 


Nach-KS Schicken Sie das Gerät originalverpackt an unsere Service- 
adresse. 


RBMU Lucy Please send the appliance in its original packaging to our ser- 
vice address. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 


Systemebene sehr gering war (max. 4). Am meisten beeinflusst durch die Regelan- 
wendung war der Fehlertyp LX.4 „Lexik - Zusätzliches Wort eingefügt“. Dieser 
Fehlertyp sank bei dem SMÜ-System SDL und wurde bei dem HMÜ-System Bing, 
dem RBMÜ-System Lucy und dem HMÜ-System Systran vollständig behoben. Je- 
doch erwies sich die Differenz aufgrund der geringen Fehleranzahl bei keinem 
der genannten Systeme als signifikant. 


5.4.9.5 Vergleich der MÜ-Qualität mit vs. ohne überflüssige Präfixe sowie 
die Korrelation zwischen den Fehlertypen und der Qualität 


Bei der Regel „Überflüssige Präfixe vermeiden“ stiegen zwar die Stil- und Inhalts- 
qualität,” dennoch fiel dieser Anstieg nur sehr niedrig aus. Die meisten Uberset- 
zungen (68 %) bei dieser Regel waren sowohl vor als auch nach der Anwendung 
der Regel richtig (Gruppe RR), siehe Abbildung 5.119. Daher ist eine statistisch 
signifikante Qualitätsveränderung schwer vorstellbar. Die Stilqualität stieg um 
1,9 % (Mv = 4,25 / SDv = ‚554 / Mn = 4,33 / SDn = ‚414 / N = 92). Die Inhaltsqua- 
lität stieg um 2,5 % (Mv = 4,46 / SDv = ‚768 / Mn = 4,57 / SDn = ,701/ N = 92). 
(siehe Abbildung 5.123) Der Mittelwert der Differenz (nach KS — vor KS) der ver- 
gebenen Qualitätspunkte pro Satz lag im Fall der Stilqualität bei ‚086 (SD = ,435) 
mit einem 95%-Konfidenzintervall zwischen einem Minimum von — ‚005 und ei- 
nem Maximum von ‚176 sowie im Fall der Inhaltsqualität bei ‚111 (SD = ,496) mit 
einem 95%-Konfidenzintervall zwischen einem Minimum von ‚009 und einem 


*Definitionen der Qualität unter §4.5.5.1. 


461 


5 Quantitative und qualitative Analyse der Ergebnisse 


2 2 
IN_SM_12.n — 
IN_SM_12.v i 
1 2 
DN SM Un | 
IN SM _1l.v 2 
Al 
3 
1 3 
IN_GR_10.n 4 f 
= — ———ii 3 
IN_GR_10.v — 
0 
1 
O 3 
IN GR on - 2 
2 
1 
ec z,z mu eo 
IN_GR_9.v 5 2 
IR mm 
IN GR 8.n - 0 
0 
|] 1 
IN GR 8v -| 8 
0 
<— —— <<. ee 4 
IN_GR_7.n 2 
m 1 
IN_GR_7v + 
g 
a 1 
IN LX An | 
0 
TEE 3 
IN IX_4v 7 
(| 
e 
IN LX 3n TP 
N = 
0 m Systran 
IN_LX_3.v i = SDL 
Q Lucy 
IN_OR_2.n + i ™ Google 
0 i = Bing 
IN OR 2.v + _ 
0 | | | | | | | 
0 0.5 1 1.5 2 2.5 3 3.5 


Summe 
"Die Balken zeigen die Summe der Fehleranzahl bei jedem Fehlertyp, wobei „v“ für die Summe 
„vor der Anwendung der KS-Regel“ und „n“ für die Summe „nach der Anwendung der KS-Regel“ 
steht. Jeder Fehlertyp wird erst für alle Systeme für das Szenario „vor KS“ abgebildet, danach 
folgt derselbe Fehlertyp wieder für alle Systeme für das Szenario „nach KS“. 
“Um die Übersichtlichkeit und Lesbarkeit der Grafik zu erhöhen, wurden in der Grafik die 
Fehlertypen ausgeblendet, die 0 oder nur einmal bei allen MÜ-Systemen vorkamen: In dieser 
Grafik kamen die Fehlertypen 1, 5, 6 und 13 bei gar keinem MÜ-System vor. 


Abbildung 5.122: „Überfl. Präfixe verm“ - Summe der Fehleranzahl der 
Fehlertypen vor vs. nach KS bei den einzelnen MÜ-Systemen 
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Maximum von ,214 (Bootstrapping mit 1000 Stichproben), siehe Abbildung 5.124. 
Die Differenzen (nach KS — vor KS) in der Stil- und Inhaltsqualität waren nicht 
signifikant (p = ‚172 bzw. p = ,059). 
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Abbildung 5.123: „Überfl. Präfixe verm“ Abbildung 5.124: „Überfl. Präfixe verm“ 
— Mittelwerte der Qualität vor und nach - Mittelwert der Qualitatsdifferenzen 
KS 


Eine genaue Betrachtung der Ergebnisse der Humanevaluation zeigt, dass die 
Stil- und Inhaltsqualität bei der Behebung der lexikalischen Fehlertyp LX.4 „Zu- 
sätzliches Wort eingefügt“ stiegen. Bei der Verwendung von Verben mit über- 
flüssigen Präfixen, wurden die Präfixe zusätzlich übersetzt. Die Behebung dieses 
Fehlers verbesserte die Übersetzung stilistisch sowie inhaltlich hinsichtlich der 
Genauigkeit und Verständlichkeit (CQ1 und CQ2). 

Dennoch ist der Effekt, wie Tabelle 5.127 zeigt, nur bei dem Präfix bemerkbar. 
In dem Fall betrug die Qualitätsveränderung auf der Likert-Skala + 0,75 bei der 
SQ bzw. + 0,63 bei der CQ. 


5.4.9.5.1 Korrelation zwischen den Fehlertypen und der Qualität 


Auf Basis der Fehlerannotation zusammen mit der Humanevaluation gibt uns ei- 
ne Spearman-Korrelationsanalyse Aufschluss, wie die Veränderung bei der Feh- 
leranzahl bei jedem Fehlertyp (Anz. nach KS - Anz. vor KS) mit den Qualitäts- 
unterschieden (Q. nach KS - Q. vor KS) zusammenhängt. Mithilfe des Spearman- 
Tests erwies sich ein signifikanter mittlerer negativer Zusammenhang zwischen 
der Differenz in den Fehlertypen LX.4 „Zusätzliches Wort eingefügt“ und SM.11 
„Verwechslung des Sinns“ einzeln und der Differenz in der Stilqualität; sowie ein 
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SOL wv SOL pn SQ2_v SQ2_n SQ3_v SQ3_n CQ1_ v CQ1_n CQ2_v CQ2_n 
SQ1: Ü ist nicht korrekt bzw. nicht klar dargestellt, d. h. nicht orthografisch. 
SQ2: Ü ist nicht ideal für die Absicht des Satzes, d. h. motiviert den Nutzer nicht zum Handeln, 
zieht nicht seine Aufmerksamkeit an usw. 
SQ3: Ü klingt nicht natürlich bzw. nicht idiomatisch. 
CQ1: Ü gibt die Informationen im Ausgangstext nicht exakt wieder. 
CQ2: Ü ist nicht leicht zu verstehen, d. h. nicht gut formuliert bzw. dargestellt. 


Abbildung 5.125: „Überfl. Präfixe verm“ - Vergleich der Qualitätskrite- 


rien 


Tabelle 5.127: Beispiel 81 


Vor-KS Wählt man einen bestimmten Zeichensatz als Standardwert aus, 
wird dieser Zeichensatz in allen Stationen verwendet. 


SMU SDL If you select a certain character set as a default value from, this 
character set will be used in all stations. 


Nach-KS Wählt man einen bestimmten Zeichensatz als Standardwert, wird 
dieser Zeichensatz in allen Stationen verwendet. 


SMU SDL Ifyou select a certain character set as a default value, this charac- 
ter set will be used in all stations. 


Die KS-Stelle ist fett dargestellt. Blau wird für die korrekten Tokens verwendet; Rot für die 
falschen Tokens. 
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signifikanter schwacher negativer Zusammenhang zwischen der Differenz im 
Fehlertyp GR.8 „Falsches Verb (Zeitform, Komposition, Person)“ und der Diffe- 
renz in der Stilqualität. (siehe Tabelle 5.128) 


Tabelle 5.128: „Überfl. Präfixe verm“ - Korrelation zwischen den Feh- 
lertypen und der Qualität 


N D p 
Differenz SQ (nach KS — vor KS) 
Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 92 <,001 - ,431 
fügt“ 
Diff. der Anzahl der GR.8 „Falsches Verb“ 92 ‚0455 —,210 


Diff. der Anzahl der SM.11 „Verwechslung des 92 ‚002 —,323 
Sinns“ 


Differenz CQ (nach KS — vor KS) 


Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 92 <,001 —~,434 
fügt“ 

Diff. der Anzahl der GR.8 „Falsches Verb“ 92 005 —,288 
Diff. der Anzahl der SM.11 „Verwechslung des 92 ‚001 —,337 
Sinns“ 

Differenz allg. Q (nach KS — vor KS) 

Diff. der Anzahl der LX.4 „Zusätzliches Wort einge- 92 <,001 —,452 
fügt“ 

Diff. der Anzahl der GR.8 „Falsches Verb“ 92 ‚008  - ‚274 
Diff. der Anzahl der SM.11 „Verwechslung des 92 <,001 - ‚388 
Sinns“ 


*In der Tabelle werden nur die Fehlertypen dargestellt, die mindestens mit einer 
Qualitätsvariable signifikant korrelieren. 
p: Signifikanz nicht signifikant (p > 0,05) p: Korrelationskoeffizient 


schwache Korrelation (p >=0,1) mittlere Korrelation (p >= 0,3) starke Korrelation (p >= 0,5) 


Bezüglich der Inhaltsqualität erwies sich ein signifikanter mittlerer negativer 
Zusammenhang zwischen der Differenz in den Fehlertypen LX.4 und SM.11 ein- 
zeln und der Differenz in der Inhaltsqualität; sowie ein signifikanter schwacher 
negativer Zusammenhang zwischen der Differenz im Fehlertyp GR.8 und der 
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Differenz in der Inhaltsqualitat. (siehe Tabelle 5.128) Weitere Korrelationen zwi- 
schen anderen einzelnen Fehlertypen und der Qualitat konnten nicht erwiesen 
werden. 

Diese signifikanten negativen Korrelationen deut